論文の概要: VNLP: Turkish NLP Package
- arxiv url: http://arxiv.org/abs/2403.01309v1
- Date: Sat, 2 Mar 2024 20:46:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 14:18:46.341185
- Title: VNLP: Turkish NLP Package
- Title(参考訳): VNLP:トルコのNLPパッケージ
- Authors: Meliksah Turker, Mehmet Erdi Ari, Aydin Han
- Abstract要約: VNLPは、トルコ語のための最先端自然言語処理(NLP)パッケージである。
テキスト分割やテキスト正規化といった最も単純なタスクから、テキストやトークンの分類モデルといったより高度なタスクまで、幅広いツールが含まれている。
VNLPには、オープンソースのGitHubリポジトリ、ReadtheDocsドキュメント、便利なインストールのためのPyPiパッケージ、Python、コマンドラインAPIがある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we present VNLP: the first dedicated, complete, open-source,
well-documented, lightweight, production-ready, state-of-the-art Natural
Language Processing (NLP) package for the Turkish language. It contains a wide
variety of tools, ranging from the simplest tasks, such as sentence splitting
and text normalization, to the more advanced ones, such as text and token
classification models. Its token classification models are based on "Context
Model", a novel architecture that is both an encoder and an auto-regressive
model. NLP tasks solved by VNLP models include but are not limited to Sentiment
Analysis, Named Entity Recognition, Morphological Analysis \& Disambiguation
and Part-of-Speech Tagging. Moreover, it comes with pre-trained word embeddings
and corresponding SentencePiece Unigram tokenizers. VNLP has an open-source
GitHub repository, ReadtheDocs documentation, PyPi package for convenient
installation, Python and command-line API and a demo page to test all the
functionality. Consequently, our main contribution is a complete, compact,
easy-to-install and easy-to-use NLP package for Turkish.
- Abstract(参考訳): 本研究では、トルコ語のための最初の専用、完全、オープンソース、文書化、軽量、プロダクション対応、最先端の自然言語処理(NLP)パッケージを提示する。
テキスト分割やテキスト正規化といった最も単純なタスクから、テキストやトークン分類モデルといったより高度なタスクまで、さまざまなツールが含まれている。
そのトークン分類モデルは、エンコーダと自己回帰モデルの両方である新しいアーキテクチャである"context model"に基づいている。
VNLPモデルによって解決されたNLPタスクには、感性分析、名前付きエンティティ認識、形態的分析 \& Disambiguation 、音声タグの一部に限られる。
さらに、事前訓練された単語埋め込みと対応するSentencePiece Unigramトークンが付属している。
vnlpにはオープンソースのgithubリポジトリ、readthedocsドキュメント、便利なインストールのためのpypiパッケージ、pythonとコマンドラインapi、すべての機能をテストするためのデモページがある。
その結果,トルコ語用の完全かつコンパクトで,インストールが容易で,使いやすいnlpパッケージが提供されました。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - pyvene: A Library for Understanding and Improving PyTorch Models via
Interventions [79.72930339711478]
$textbfpyvene$は、さまざまなPyTorchモジュールに対するカスタマイズ可能な介入をサポートするオープンソースライブラリである。
私たちは、$textbfpyvene$が、ニューラルモデルへの介入を実行し、他のモデルとインターバルされたモデルを共有するための統一されたフレームワークを提供する方法を示します。
論文 参考訳(メタデータ) (2024-03-12T16:46:54Z) - HugNLP: A Unified and Comprehensive Library for Natural Language
Processing [14.305751154503133]
本稿では,HugingFace Transformersのバックエンドを備えた自然言語処理(NLP)ライブラリであるHugNLPを紹介する。
HugNLPは、モデル、プロセッサ、アプリケーションを含む階層構造で構成され、異なるNLPタスクで事前訓練された言語モデル(PLM)の学習プロセスを統一する。
論文 参考訳(メタデータ) (2023-02-28T03:38:26Z) - Binding Language Models in Symbolic Languages [146.3027328556881]
Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。
解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。
実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
論文 参考訳(メタデータ) (2022-10-06T12:55:17Z) - HuSpaCy: an industrial-strength Hungarian natural language processing
toolkit [0.0]
言語処理パイプラインは、最先端の補題化、形態素合成分析、エンティティ認識、単語埋め込みによって構成されるべきである。
本稿では,ハンガリー語処理パイプラインのHuSpaCyを紹介する。
論文 参考訳(メタデータ) (2022-01-06T07:49:45Z) - A Data-Centric Framework for Composable NLP Workflows [109.51144493023533]
アプリケーションドメインにおける経験的自然言語処理システム(例えば、ヘルスケア、ファイナンス、教育)は、複数のコンポーネント間の相互運用を伴う。
我々は,このような高度なNLPの高速な開発を支援するために,統一的なオープンソースフレームワークを構築した。
論文 参考訳(メタデータ) (2021-03-02T16:19:44Z) - Meta-Embeddings for Natural Language Inference and Semantic Similarity
tasks [0.0]
Word Representationsは、ほぼ全ての高度な自然言語処理(NLP)アプリケーションの中核となるコンポーネントである。
本稿では,主要なNLPタスクに効率よく取り組むために,SOTA(State-of-the-Art)モデルから派生したメタ埋め込みを提案する。
論文 参考訳(メタデータ) (2020-12-01T16:58:01Z) - N-LTP: An Open-source Neural Language Technology Platform for Chinese [68.58732970171747]
textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。
textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
論文 参考訳(メタデータ) (2020-09-24T11:45:39Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。