論文の概要: GlossLM: Multilingual Pretraining for Low-Resource Interlinear Glossing
- arxiv url: http://arxiv.org/abs/2403.06399v1
- Date: Mon, 11 Mar 2024 03:21:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:34:01.440079
- Title: GlossLM: Multilingual Pretraining for Low-Resource Interlinear Glossing
- Title(参考訳): GlossLM:低リソースインターリニアグロースのための多言語事前学習
- Authors: Michael Ginn (1), Lindia Tjuatja (2), Taiqi He (2), Enora Rice (1),
Graham Neubig (2), Alexis Palmer (1), Lori Levin (2) ((1) University of
Colorado, (2) Carnegie Mellon University)
- Abstract要約: 言語文書の重要な側面は、インターリニアグロステキスト(IGT)のようなフォーマットで注釈付きテキストを作成することである。
我々は、さまざまなソースからIGTデータの最大コーパスを構築し、1.8k言語で450万以上のサンプルをカバーしています。
そして、このコーパスの一部に大規模な多言語モデルを事前訓練し、さらに特定の言語に微調整する。我々のモデルは、セグメント化されたデータと巨大な単言語データセットのための最先端の手法と競合する。
- 参考スコア(独自算出の注目度): 0.33654492025566546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key aspect of language documentation is the creation of annotated text in a
format such as interlinear glossed text (IGT), which captures fine-grained
morphosyntactic analyses in a morpheme-by-morpheme format. Prior work has
explored methods to automatically generate IGT in order to reduce the time cost
of language analysis. However, many languages (particularly those requiring
preservation) lack sufficient IGT data to train effective models, and
crosslingual transfer has been proposed as a method to overcome this
limitation.
We compile the largest existing corpus of IGT data from a variety of sources,
covering over 450k examples across 1.8k languages, to enable research on
crosslingual transfer and IGT generation. Then, we pretrain a large
multilingual model on a portion of this corpus, and further finetune it to
specific languages. Our model is competitive with state-of-the-art methods for
segmented data and large monolingual datasets. Meanwhile, our model outperforms
SOTA models on unsegmented text and small corpora by up to 6.6% morpheme
accuracy, demonstrating the effectiveness of crosslingual transfer for
low-resource languages.
- Abstract(参考訳): 言語ドキュメントの重要な側面は、interlinear glossed text (igt)のようなフォーマットで注釈付きテキストを作成することである。
従来の研究は、言語分析の時間的コストを削減するために、IGTを自動生成する方法を模索してきた。
しかし、多くの言語(特に保存を必要とする言語)は効果的なモデルを訓練するのに十分なIGTデータを持っておらず、この制限を克服する手法として言語間移動が提案されている。
我々は、さまざまなソースからIGTデータの最大のコーパスをコンパイルし、1.8k言語で450万以上のサンプルをカバーし、クロスリンガル転送とIGT生成の研究を可能にする。
そして、このコーパスの一部で大きな多言語モデルを事前学習し、さらにそれを特定の言語に微調整する。
セグメンテッドデータや大規模単言語データセットでは最先端の手法と競合する。
一方,本モデルは,未入力テキストと小コーパスのsotaモデルを最大6.6%のモーフェム精度で上回り,低リソース言語に対する言語間変換の有効性を示す。
関連論文リスト
- Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - MultiTACRED: A Multilingual Version of the TAC Relation Extraction
Dataset [6.7839993945546215]
そこで本研究では,9つの言語群から12種類の言語を対象とするMultiTACREDデータセットについて紹介する。
翻訳とアノテーションのプロジェクションの品質を分析し、エラーカテゴリを特定し、訓練済みの単言語および多言語言語モデルの微調整を実験的に評価する。
対象言語の多くにおいて、モノリンガルREモデルの性能は英語オリジナルに匹敵するものであり、英語とターゲット言語データの組み合わせで訓練された多言語モデルは、モノリンガルモデルよりも優れている。
論文 参考訳(メタデータ) (2023-05-08T09:48:21Z) - Adapting Monolingual Models: Data can be Scarce when Language Similarity
is High [3.249853429482705]
ゼロショット転送学習の性能を,可能な限り少ないデータで検証する。
我々は、低リソースターゲット言語2種類のデータを用いて、BERTベースの4つのモデルの語彙層を再学習する。
高言語的類似性により、10MBのデータは、実質的なモノリンガル転送性能を達成するのに十分である。
論文 参考訳(メタデータ) (2021-05-06T17:43:40Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。