論文の概要: LatinCy: Synthetic Trained Pipelines for Latin NLP
- arxiv url: http://arxiv.org/abs/2305.04365v1
- Date: Sun, 7 May 2023 19:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 16:13:11.088492
- Title: LatinCy: Synthetic Trained Pipelines for Latin NLP
- Title(参考訳): ラテンCy:ラテンNLPのための合成訓練パイプライン
- Authors: Patrick J. Burns (Institute for the Study of the Ancient World/New
York University)
- Abstract要約: 本稿では、spurCy自然言語処理フレームワークで使用するための、トレーニング済み汎用のラテン言語"コア"パイプラインであるLatinCyを紹介する。
これらのモデルは、ラテン・ユニバーサル依存ツリーバンクの5つすべてを含む、大量のラテンデータに基づいて訓練されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces LatinCy, a set of trained general purpose
Latin-language "core" pipelines for use with the spaCy natural language
processing framework. The models are trained on a large amount of available
Latin data, including all five of the Latin Universal Dependency treebanks,
which have been preprocessed to be compatible with each other. The result is a
set of general models for Latin with good performance on a number of natural
language processing tasks (e.g. the top-performing model yields POS tagging,
97.41% accuracy; lemmatization, 94.66% accuracy; morphological tagging 92.76%
accuracy). The paper describes the model training, including its training data
and parameterization, and presents the advantages to Latin-language researchers
of having a spaCy model available for NLP work.
- Abstract(参考訳): 本稿では、spurCy自然言語処理フレームワークで使用するための、トレーニング済み汎用ラテン言語"コア"パイプラインであるLatinCyを紹介する。
モデルは大量のラテンデータに基づいてトレーニングされ、ラテンの普遍依存ツリーバンクの5つすべてを含む、互いに互換性を持つように事前処理されている。
その結果は、多くの自然言語処理タスクにおいて優れたパフォーマンスを持つラテン語の一般的なモデルのセットである(例えば、トップパフォーマンスモデルはPOSタグ、97.41%の精度、補綴、94.66%の精度、形態的タグ、92.76%の精度)。
本論文では,学習データとパラメータ化を含むモデルトレーニングについて述べるとともに,NLP作業に使用可能なpaCyモデルを持つことの利点をラテン語研究者に提示する。
関連論文リスト
- Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Bilingual Alignment Pre-training for Zero-shot Cross-lingual Transfer [33.680292990007366]
本稿では,埋め込みの整合性を向上し,ゼロショットの言語間転送性能を向上させることを目的とする。
本稿では,従来の知識として統計アライメント情報を用いて,バイリンガル単語予測を導出するアライメント言語モデル(Alignment Language Model, AlignLM)を提案する。
その結果、AlignLMはMLQAおよびXNLIデータセット上でゼロショット性能を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2021-06-03T10:18:43Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Latin BERT: A Contextual Language Model for Classical Philology [7.513100214864645]
我々はラテン言語のための文脈言語モデルである Latin BERT を提示する。
古典期から21世紀にかけての様々な資料から642.7万語で訓練された。
論文 参考訳(メタデータ) (2020-09-21T17:47:44Z) - The birth of Romanian BERT [1.377045689881944]
本稿では,ルーマニア語トランスフォーマーをベースとした最初の言語モデルであるルーマニア語BERTについて紹介する。
本稿では,コーパスの構成とクリーニング,モデルトレーニングプロセス,およびルーマニアの様々なデータセット上でのモデルの広範囲な評価について論じる。
論文 参考訳(メタデータ) (2020-09-18T09:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。