論文の概要: GlossLM: Multilingual Pretraining for Low-Resource Interlinear Glossing
- arxiv url: http://arxiv.org/abs/2403.06399v1
- Date: Mon, 11 Mar 2024 03:21:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:34:01.440079
- Title: GlossLM: Multilingual Pretraining for Low-Resource Interlinear Glossing
- Title(参考訳): GlossLM:低リソースインターリニアグロースのための多言語事前学習
- Authors: Michael Ginn (1), Lindia Tjuatja (2), Taiqi He (2), Enora Rice (1),
Graham Neubig (2), Alexis Palmer (1), Lori Levin (2) ((1) University of
Colorado, (2) Carnegie Mellon University)
- Abstract要約: 言語文書の重要な側面は、インターリニアグロステキスト(IGT)のようなフォーマットで注釈付きテキストを作成することである。
我々は、さまざまなソースからIGTデータの最大コーパスを構築し、1.8k言語で450万以上のサンプルをカバーしています。
そして、このコーパスの一部に大規模な多言語モデルを事前訓練し、さらに特定の言語に微調整する。我々のモデルは、セグメント化されたデータと巨大な単言語データセットのための最先端の手法と競合する。
- 参考スコア(独自算出の注目度): 0.33654492025566546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key aspect of language documentation is the creation of annotated text in a
format such as interlinear glossed text (IGT), which captures fine-grained
morphosyntactic analyses in a morpheme-by-morpheme format. Prior work has
explored methods to automatically generate IGT in order to reduce the time cost
of language analysis. However, many languages (particularly those requiring
preservation) lack sufficient IGT data to train effective models, and
crosslingual transfer has been proposed as a method to overcome this
limitation.
We compile the largest existing corpus of IGT data from a variety of sources,
covering over 450k examples across 1.8k languages, to enable research on
crosslingual transfer and IGT generation. Then, we pretrain a large
multilingual model on a portion of this corpus, and further finetune it to
specific languages. Our model is competitive with state-of-the-art methods for
segmented data and large monolingual datasets. Meanwhile, our model outperforms
SOTA models on unsegmented text and small corpora by up to 6.6% morpheme
accuracy, demonstrating the effectiveness of crosslingual transfer for
low-resource languages.
- Abstract(参考訳): 言語ドキュメントの重要な側面は、interlinear glossed text (igt)のようなフォーマットで注釈付きテキストを作成することである。
従来の研究は、言語分析の時間的コストを削減するために、IGTを自動生成する方法を模索してきた。
しかし、多くの言語(特に保存を必要とする言語)は効果的なモデルを訓練するのに十分なIGTデータを持っておらず、この制限を克服する手法として言語間移動が提案されている。
我々は、さまざまなソースからIGTデータの最大のコーパスをコンパイルし、1.8k言語で450万以上のサンプルをカバーし、クロスリンガル転送とIGT生成の研究を可能にする。
そして、このコーパスの一部で大きな多言語モデルを事前学習し、さらにそれを特定の言語に微調整する。
セグメンテッドデータや大規模単言語データセットでは最先端の手法と競合する。
一方,本モデルは,未入力テキストと小コーパスのsotaモデルを最大6.6%のモーフェム精度で上回り,低リソース言語に対する言語間変換の有効性を示す。
関連論文リスト
- Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating
Generalization Capacity of Language Models [18.874880342410876]
本稿では、時間的推測に焦点を当てた日本のベンチマークであるJampを紹介する。
我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を行うことができます。
時制フラグメントに基づいてデータセットを分割することにより,単言語/多言語LMの一般化能力を評価する。
論文 参考訳(メタデータ) (2023-06-19T07:00:14Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text
Classification [16.684856745734944]
ゼロショット言語間テキスト分類の性能を向上する多言語バッグ・オブ・エンティリティモデルを提案する。
同じ概念を表す複数の言語のエンティティは、ユニークな識別子で定義される。
したがって、リソース豊富な言語のエンティティ機能に基づいて訓練されたモデルは、他の言語に直接適用することができる。
論文 参考訳(メタデータ) (2021-10-15T01:10:50Z) - MFAQ: a Multilingual FAQ Dataset [9.625301186732598]
本稿では,最初の多言語FAQデータセットを公開する。
21の異なる言語で、Webから約6万のFAQペアを収集しました。
Dense Passage Retrieval(DPR)と同様のセットアップを採用し、このデータセット上でさまざまなバイエンコーダをテストする。
論文 参考訳(メタデータ) (2021-09-27T08:43:25Z) - Adapting Monolingual Models: Data can be Scarce when Language Similarity
is High [3.249853429482705]
ゼロショット転送学習の性能を,可能な限り少ないデータで検証する。
我々は、低リソースターゲット言語2種類のデータを用いて、BERTベースの4つのモデルの語彙層を再学習する。
高言語的類似性により、10MBのデータは、実質的なモノリンガル転送性能を達成するのに十分である。
論文 参考訳(メタデータ) (2021-05-06T17:43:40Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。