論文の概要: TransliCo: A Contrastive Learning Framework to Address the Script
Barrier in Multilingual Pretrained Language Models
- arxiv url: http://arxiv.org/abs/2401.06620v1
- Date: Fri, 12 Jan 2024 15:12:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 19:09:02.040268
- Title: TransliCo: A Contrastive Learning Framework to Address the Script
Barrier in Multilingual Pretrained Language Models
- Title(参考訳): TransliCo:多言語事前学習言語モデルにおけるスクリプトバリアに対処するコントラスト学習フレームワーク
- Authors: Yihong Liu, Chunlan Ma, Haotian Ye, Hinrich Sch\"utze
- Abstract要約: 7000以上の言語を記述した293のスクリプトがある。
様々な理由から、多くの近縁言語は異なるスクリプトを使用しており、語彙重なりを通じて言語間知識を学ぶのに多言語事前学習言語モデル(mPLM)では困難である。
本稿では,翻訳コントラストモデリング(TCM)を組み込んだTransliCoを提案する。
- 参考スコア(独自算出の注目度): 17.018071714895555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are 293 scripts representing over 7,000 languages in the written form.
Due to various reasons, many closely related languages use different scripts,
which poses difficulty for multilingual pretrained language models (mPLMs) in
learning crosslingual knowledge through lexical overlap. As a result, mPLMs
present a script barrier: representations from different scripts are located in
different subspaces, which is a strong indicator of why crosslingual transfer
involving languages of different scripts shows sub-optimal performance. To
address this problem, we propose a simple framework TransliCo that contains
Transliteration Contrastive Modeling (TCM) to fine-tune an mPLM by contrasting
sentences in its training data and their transliterations in a unified script
(Latn, in our case), which ensures uniformity in the representation space for
different scripts. Using Glot500-m, an mPLM pretrained on over 500 languages,
as our source model, we find-tune it on a small portion (5\%) of its training
data, and refer to the resulting model as Furina. We show that Furina not only
better aligns representations from distinct scripts but also outperforms the
original Glot500-m on various crosslingual transfer tasks. Additionally, we
achieve consistent improvement in a case study on the Indic group where the
languages are highly related but use different scripts. We make our code and
models publicly available.
- Abstract(参考訳): 293のスクリプトが7,000以上の言語を書体で表現している。
様々な理由から、多くの近縁言語は異なるスクリプトを使用しており、語彙重なりを通じて言語間知識を学ぶのに多言語事前学習言語モデル(mPLM)では困難である。
異なるスクリプトからの表現は、異なるサブスペースに配置されているため、異なるスクリプトの言語を含む言語間転送が、サブ最適性能を示す理由を示す強力な指標である。
そこで本研究では,この問題を解決するために,学習データ中の文とそれらの訳文を統一スクリプト(この場合はlatn)で対比することにより,mplmを微調整するためのtcm(transliteration contrastive modeling)を含む単純なフレームワークであるtranslicoを提案し,異なるスクリプトの表現空間における均一性を保証する。
500以上の言語で事前訓練されたmPLMであるGlot500-mをソースモデルとして、トレーニングデータのごく一部(5\%)で検出し、結果のモデルをFurinaと参照する。
Furinaは、異なるスクリプトから表現をコーディネートするだけでなく、さまざまな言語間転送タスクにおいてオリジナルのGlot500-mよりも優れていることを示す。
さらに,言語が高度に関連しているが異なるスクリプトを使用するindicグループのケーススタディにおいて,一貫した改善を達成している。
コードとモデルを公開しています。
関連論文リスト
- Unknown Script: Impact of Script on Cross-Lingual Transfer [2.5398014196797605]
言語間移動は、言語間で知識を伝達する効果的な方法となっている。
対象言語とそのスクリプトが事前訓練されたモデルの一部ではない場合を考える。
この結果から, 共通スクリプト, 言語類似性, モデルサイズよりも, トークン化の重要性が示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:48:01Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Curriculum Script Distillation for Multilingual Visual Question
Answering [10.721189858694396]
下流タスクの学習済みモデルを微調整するために、ソースとターゲット言語翻訳に基づくカリキュラムを導入する。
同一のスクリプトを共有するターゲット言語は、他の言語よりもパフォーマンスが(6%)良いことを示す。
論文 参考訳(メタデータ) (2023-01-17T23:55:50Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。