論文の概要: TransliCo: A Contrastive Learning Framework to Address the Script
Barrier in Multilingual Pretrained Language Models
- arxiv url: http://arxiv.org/abs/2401.06620v1
- Date: Fri, 12 Jan 2024 15:12:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 19:09:02.040268
- Title: TransliCo: A Contrastive Learning Framework to Address the Script
Barrier in Multilingual Pretrained Language Models
- Title(参考訳): TransliCo:多言語事前学習言語モデルにおけるスクリプトバリアに対処するコントラスト学習フレームワーク
- Authors: Yihong Liu, Chunlan Ma, Haotian Ye, Hinrich Sch\"utze
- Abstract要約: 7000以上の言語を記述した293のスクリプトがある。
様々な理由から、多くの近縁言語は異なるスクリプトを使用しており、語彙重なりを通じて言語間知識を学ぶのに多言語事前学習言語モデル(mPLM)では困難である。
本稿では,翻訳コントラストモデリング(TCM)を組み込んだTransliCoを提案する。
- 参考スコア(独自算出の注目度): 17.018071714895555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are 293 scripts representing over 7,000 languages in the written form.
Due to various reasons, many closely related languages use different scripts,
which poses difficulty for multilingual pretrained language models (mPLMs) in
learning crosslingual knowledge through lexical overlap. As a result, mPLMs
present a script barrier: representations from different scripts are located in
different subspaces, which is a strong indicator of why crosslingual transfer
involving languages of different scripts shows sub-optimal performance. To
address this problem, we propose a simple framework TransliCo that contains
Transliteration Contrastive Modeling (TCM) to fine-tune an mPLM by contrasting
sentences in its training data and their transliterations in a unified script
(Latn, in our case), which ensures uniformity in the representation space for
different scripts. Using Glot500-m, an mPLM pretrained on over 500 languages,
as our source model, we find-tune it on a small portion (5\%) of its training
data, and refer to the resulting model as Furina. We show that Furina not only
better aligns representations from distinct scripts but also outperforms the
original Glot500-m on various crosslingual transfer tasks. Additionally, we
achieve consistent improvement in a case study on the Indic group where the
languages are highly related but use different scripts. We make our code and
models publicly available.
- Abstract(参考訳): 293のスクリプトが7,000以上の言語を書体で表現している。
様々な理由から、多くの近縁言語は異なるスクリプトを使用しており、語彙重なりを通じて言語間知識を学ぶのに多言語事前学習言語モデル(mPLM)では困難である。
異なるスクリプトからの表現は、異なるサブスペースに配置されているため、異なるスクリプトの言語を含む言語間転送が、サブ最適性能を示す理由を示す強力な指標である。
そこで本研究では,この問題を解決するために,学習データ中の文とそれらの訳文を統一スクリプト(この場合はlatn)で対比することにより,mplmを微調整するためのtcm(transliteration contrastive modeling)を含む単純なフレームワークであるtranslicoを提案し,異なるスクリプトの表現空間における均一性を保証する。
500以上の言語で事前訓練されたmPLMであるGlot500-mをソースモデルとして、トレーニングデータのごく一部(5\%)で検出し、結果のモデルをFurinaと参照する。
Furinaは、異なるスクリプトから表現をコーディネートするだけでなく、さまざまな言語間転送タスクにおいてオリジナルのGlot500-mよりも優れていることを示す。
さらに,言語が高度に関連しているが異なるスクリプトを使用するindicグループのケーススタディにおいて,一貫した改善を達成している。
コードとモデルを公開しています。
関連論文リスト
- LangSAMP: Language-Script Aware Multilingual Pretraining [48.16511046793275]
最近の多言語事前訓練言語モデル(mPLM)は、言語埋め込みの使用を避けることが多い。
LangSAMPには言語とスクリプトの埋め込みが組み込まれており、表現学習が強化されている。
我々は500以上の言語をカバーする多言語コーパス上のXLM-Rの継続事前学習にLangSAMPを適用した。
論文 参考訳(メタデータ) (2024-09-26T18:29:10Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Paramanu: A Family of Novel Efficient Generative Foundation Language Models for Indian Languages [3.9018931027384056]
インド語のための新しい言語モデル(LM)のファミリーである「Paramanu」を提示する。
10の言語(アッサム語、バングラ語、ヒンディー語、コンカニ語、マイティシ語、マラティ語、オディア語、サンスクリット語、タミル語、テルグ語)を5文字でカバーしている。
モデルは、コンテキストサイズが1024の1つのGPUで事前トレーニングされており、サイズは13.29万(M)から367.5Mまで様々である。
論文 参考訳(メタデータ) (2024-01-31T17:58:10Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。