論文の概要: TransliCo: A Contrastive Learning Framework to Address the Script Barrier in Multilingual Pretrained Language Models
- arxiv url: http://arxiv.org/abs/2401.06620v2
- Date: Thu, 23 May 2024 13:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 11:46:15.481977
- Title: TransliCo: A Contrastive Learning Framework to Address the Script Barrier in Multilingual Pretrained Language Models
- Title(参考訳): TransliCo:多言語事前学習言語モデルにおけるスクリプトバリアに対処するコントラスト学習フレームワーク
- Authors: Yihong Liu, Chunlan Ma, Haotian Ye, Hinrich Schütze,
- Abstract要約: 本稿では,mPLM を微調整する TransliCo を提案する。
Furinaは様々なゼロショット・クロスリンガル・トランスファータスクにおいてオリジナルのGlot500-mより優れていることを示す。
- 参考スコア(独自算出の注目度): 50.40191599304911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The world's more than 7000 languages are written in at least 293 scripts. Due to various reasons, many closely related languages use different scripts, which poses a difficulty for multilingual pretrained language models (mPLMs) in learning crosslingual knowledge through lexical overlap. As a consequence, mPLMs are faced with a script barrier: representations from different scripts are located in different subspaces, which can result in crosslingual transfer involving languages of different scripts performing suboptimally. To address this problem, we propose TransliCo, a framework that optimizes the Transliteration Contrastive Modeling (TCM) objective to fine-tune an mPLM by contrasting sentences in its training data and their transliterations in a unified script (in our case Latin), which enhances uniformity in the representation space for different scripts. Using Glot500-m, an mPLM pretrained on over 500 languages, as our source model, we fine-tune it on a small portion (5%) of its training data, and refer to the resulting model as Furina. We show that Furina not only better aligns representations from distinct scripts but also outperforms the original Glot500-m on various zero-shot crosslingual transfer tasks. Additionally, we achieve consistent improvement in a case study on the Indic group where the languages exhibit areal features but use different scripts. We make our code and models publicly available.
- Abstract(参考訳): 7000以上の言語が293のスクリプトで書かれている。
様々な理由から、多くの近縁言語は異なるスクリプトを使用しており、語彙重なりを通じて言語間知識を学ぶのに多言語事前学習言語モデル(mPLM)では困難である。
その結果、mPLMはスクリプト障壁に直面し、異なるスクリプトからの表現は異なるサブスペースに配置され、異なるスクリプトの言語が亜最適に実行するような言語間移動をもたらす可能性がある。
この問題に対処するため,TransliCoを提案する。Transliteration Contrastive Modeling (TCM) の目的を最適化するフレームワークで,トレーニングデータ中の文と,異なるスクリプトの表現空間における均一性を向上する統一スクリプト(この場合,ラテン文字)の文を対比することにより,mPLMを微調整する。
500以上の言語で事前訓練されたmPLMであるGlot500-mをソースモデルとして、トレーニングデータのごく一部(5%)で微調整し、その結果のモデルをFurinaと呼ぶ。
Furinaは、異なるスクリプトから表現をコーディネートするだけでなく、さまざまなゼロショットのクロスリンガル転送タスクにおいて、オリジナルのGlot500-mよりも優れていることを示す。
さらに,言語が言語の特徴を示すが異なるスクリプトを使用するIndicグループにおけるケーススタディにおいて,一貫した改善を実現している。
コードとモデルを公開しています。
関連論文リスト
- Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - XSemPLR: Cross-Lingual Semantic Parsing in Multiple Natural Languages
and Meaning Representations [25.50509874992198]
Cross-Lingual Semantic Parsingは、複数の自然言語のクエリを意味表現に変換することを目的としている。
既存のCLSPモデルは個別に提案され、限られたタスクやアプリケーションのデータセット上で評価される。
XSemPLRは、22の自然言語と8つの意味表現を特徴とする言語間意味解析のための統一的なベンチマークである。
論文 参考訳(メタデータ) (2023-06-07T01:09:37Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Curriculum Script Distillation for Multilingual Visual Question
Answering [10.721189858694396]
下流タスクの学習済みモデルを微調整するために、ソースとターゲット言語翻訳に基づくカリキュラムを導入する。
同一のスクリプトを共有するターゲット言語は、他の言語よりもパフォーマンスが(6%)良いことを示す。
論文 参考訳(メタデータ) (2023-01-17T23:55:50Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。