論文の概要: Does Transliteration Help Multilingual Language Modeling?
- arxiv url: http://arxiv.org/abs/2201.12501v1
- Date: Sat, 29 Jan 2022 05:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 16:10:28.773616
- Title: Does Transliteration Help Multilingual Language Modeling?
- Title(参考訳): 翻訳は多言語言語モデリングに役立つか?
- Authors: Ibraheem Muhammad Moosa, Mahmud Elahi Akhter, Ashfia Binte Habib
- Abstract要約: 異なるスクリプトを使用する関連する言語を共通スクリプトに変換することで、MLLMの下流タスクのパフォーマンスが向上する可能性がある。
私たちは特に、世界で最もスクリプトの多様性が高いインド・アーリア語族に焦点を当てています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As there is a scarcity of large representative corpora for most languages, it
is important for Multilingual Language Models (MLLM) to extract the most out of
existing corpora. In this regard, script diversity presents a challenge to
MLLMs by reducing lexical overlap among closely related languages. Therefore,
transliterating closely related languages that use different writing scripts to
a common script may improve the downstream task performance of MLLMs. In this
paper, we pretrain two ALBERT models to empirically measure the effect of
transliteration on MLLMs. We specifically focus on the Indo-Aryan language
family, which has the highest script diversity in the world. Afterward, we
evaluate our models on the IndicGLUE benchmark. We perform Mann-Whitney U test
to rigorously verify whether the effect of transliteration is significant or
not. We find that transliteration benefits the low-resource languages without
negatively affecting the comparatively high-resource languages. We also measure
the cross-lingual representation similarity (CLRS) of the models using centered
kernel alignment (CKA) on parallel sentences of eight languages from the
FLORES-101 dataset. We find that the hidden representations of the
transliteration-based model have higher and more stable CLRS scores. Our code
is available at Github (github.com/ibraheem-moosa/XLM-Indic) and Hugging Face
Hub (huggingface.co/ibraheemmoosa/xlmindic-base-multiscript and
huggingface.co/ibraheemmoosa/xlmindic-base-uniscript).
- Abstract(参考訳): 多くの言語に代表コーパスが不足しているため、MLLM(Multilingual Language Models)が既存のコーパスを最大限に抽出することが重要である。
この点において、スクリプトの多様性は、近縁言語間の語彙重なりを減らしてMLLMに挑戦する。
したがって、異なるスクリプトを共通スクリプトに翻訳することで、MLLMの下流タスク性能を向上させることができる。
本稿では,2つのALBERTモデルを事前学習し,MLLMに対する音読効果を実証的に測定する。
特に、世界で最もスクリプトの多様性が高いインド・アーリア語族に焦点を当てています。
その後、IndicGLUEベンチマークを用いてモデルの評価を行った。
翻訳の効果が有意かどうかを厳密に検証するためにmann-whitney uテストを行う。
翻訳は、比較的高いリソース言語に悪影響を及ぼすことなく、低リソース言語に恩恵をもたらすことが分かりました。
また、FLORES-101データセットから8つの言語の並列文に対して、中心的カーネルアライメント(CKA)を用いてモデルの言語間表現類似度(CLRS)を測定する。
翻訳ベースモデルの隠れ表現はCLRSスコアがより高く安定していることが判明した。
私たちのコードはGithub(github.com/ibraheem-moosa/XLM-Indic)とHugging Face Hub(huggingface.co/ibraheemmoosa/xlmindic-base-multiscript)で利用可能です。
関連論文リスト
- Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-25T09:46:07Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Could We Have Had Better Multilingual LLMs If English Was Not the Central Language? [4.655168524016426]
大規模言語モデル(LLM)は、トレーニング対象の言語に対して強力な機械翻訳能力を示す。
我々の研究は、Llama2の翻訳能力について論じている。
実験の結果,7B Llama2モデルはこれまでに見たすべての言語に翻訳すると10 BLEU以上になることがわかった。
論文 参考訳(メタデータ) (2024-02-21T16:32:38Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。