論文の概要: Stanza: A Python Natural Language Processing Toolkit for Many Human
Languages
- arxiv url: http://arxiv.org/abs/2003.07082v2
- Date: Thu, 23 Apr 2020 04:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 03:13:36.086909
- Title: Stanza: A Python Natural Language Processing Toolkit for Many Human
Languages
- Title(参考訳): Stanza: 多くのヒューマン言語のためのPython自然言語処理ツールキット
- Authors: Peng Qi, Yuhao Zhang, Yuhui Zhang, Jason Bolton, Christopher D.
Manning
- Abstract要約: 我々は,オープンソースのPython自然言語処理ツールキットであるStanzaを紹介した。
Stanzaは、トークン化、マルチワードトークン拡張、レムマティゼーション、パート・オブ・音声、形態的特徴タグ付けなど、テキスト分析のための言語に依存しない完全なニューラルネットワークを備えている。
我々は、Universal Dependencies Treebanksや他の多言語コーパスを含む、合計112のデータセットでStanzaをトレーニングしました。
- 参考スコア(独自算出の注目度): 44.8226642800919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Stanza, an open-source Python natural language processing
toolkit supporting 66 human languages. Compared to existing widely used
toolkits, Stanza features a language-agnostic fully neural pipeline for text
analysis, including tokenization, multi-word token expansion, lemmatization,
part-of-speech and morphological feature tagging, dependency parsing, and named
entity recognition. We have trained Stanza on a total of 112 datasets,
including the Universal Dependencies treebanks and other multilingual corpora,
and show that the same neural architecture generalizes well and achieves
competitive performance on all languages tested. Additionally, Stanza includes
a native Python interface to the widely used Java Stanford CoreNLP software,
which further extends its functionality to cover other tasks such as
coreference resolution and relation extraction. Source code, documentation, and
pretrained models for 66 languages are available at
https://stanfordnlp.github.io/stanza.
- Abstract(参考訳): 我々は66の言語をサポートするオープンソースのpython自然言語処理ツールキットであるstanzaを紹介する。
既存の広く使われているツールキットと比較して、Stanzaは、トークン化、マルチワードトークン拡張、補題化、音声と形態的特徴タグ付け、依存性解析、名前付きエンティティ認識を含む、テキスト分析のための言語に依存しない完全なニューラルネットワークを備えている。
我々は、Universal Dependencies Treebanksなどの多言語コーパスを含む合計112のデータセットでStanzaをトレーニングし、同じニューラルネットワークが十分に一般化し、テスト対象のすべての言語で競合性能を達成することを示す。
さらに、Stanzaは広く使われているJava Stanford CoreNLPソフトウェアにネイティブのPythonインターフェイスが含まれており、コア参照の解決や関係抽出といった他のタスクをカバーする機能をさらに拡張している。
66言語用のソースコード、ドキュメンテーション、事前訓練済みモデルはhttps://stanfordnlp.github.io/stanza.comで入手できる。
関連論文リスト
- CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - GlobalBench: A Benchmark for Global Progress in Natural Language
Processing [114.24519009839142]
GlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を追跡することを目的としている。
話者当たりのユーティリティと、全言語にわたるテクノロジのエクイティをトラックする。
現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。
論文 参考訳(メタデータ) (2023-05-24T04:36:32Z) - Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文 参考訳(メタデータ) (2021-09-10T15:03:11Z) - pysentimiento: A Python Toolkit for Opinion Mining and Social NLP tasks [0.2826977330147589]
pysentimientoは意見マイニングやその他のソーシャルNLPタスク用に設計されたPythonツールキットである。
このオープンソースライブラリは、簡単に使えるPythonライブラリで、スペイン語、英語、イタリア語、ポルトガル語の最先端モデルを提供する。
各種タスク,言語,データセットにまたがる事前学習言語モデルの総合的な性能評価を行う。
論文 参考訳(メタデータ) (2021-06-17T13:15:07Z) - When Word Embeddings Become Endangered [0.685316573653194]
本稿では,異なる資源豊富な言語の単語埋め込みとリソース不足言語の翻訳辞書を用いて,絶滅危惧言語の単語埋め込みを構築する手法を提案する。
言語間の単語埋め込みと感情分析モデルはすべて、簡単に使えるPythonライブラリを通じて公開されています。
論文 参考訳(メタデータ) (2021-03-24T15:42:53Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Improved acoustic word embeddings for zero-resource languages using
multilingual transfer [37.78342106714364]
我々は、ラベル付きデータに対する複数の良質な言語からの単一の教師付き埋め込みモデルを訓練し、それを目に見えないゼロ・リソース言語に適用する。
本稿では,3つのマルチリンガルリカレントニューラルネットワーク(RNN)モデルについて考察する。全ての訓練言語の連接語彙に基づいて訓練された分類器,複数言語から同一語と異なる単語を識別する訓練されたシームズRNN,単語ペアを再構成する訓練された対応オートエンコーダ(CAE)RNNである。
これらのモデルは、ゼロリソース言語自体で訓練された最先端の教師なしモデルよりも優れており、平均精度が30%以上向上している。
論文 参考訳(メタデータ) (2020-06-02T12:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。