論文の概要: Does Transliteration Help Multilingual Language Modeling?
- arxiv url: http://arxiv.org/abs/2201.12501v2
- Date: Mon, 27 Mar 2023 15:38:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 03:49:59.164708
- Title: Does Transliteration Help Multilingual Language Modeling?
- Title(参考訳): 翻訳は多言語言語モデリングに役立つか?
- Authors: Ibraheem Muhammad Moosa, Mahmud Elahi Akhter, Ashfia Binte Habib
- Abstract要約: 異なるスクリプトを使用する関連する言語を共通スクリプトに変換することで、MLLMの下流タスクのパフォーマンスが向上する可能性がある。
私たちは特に、世界で最もスクリプトの多様性が高いインド・アーリア語族に焦点を当てています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As there is a scarcity of large representative corpora for most languages, it
is important for Multilingual Language Models (MLLM) to extract the most out of
existing corpora. In this regard, script diversity presents a challenge to
MLLMs by reducing lexical overlap among closely related languages. Therefore,
transliterating closely related languages that use different writing scripts to
a common script may improve the downstream task performance of MLLMs. In this
paper, we pretrain two ALBERT models to empirically measure the effect of
transliteration on MLLMs. We specifically focus on the Indo-Aryan language
family, which has the highest script diversity in the world. Afterward, we
evaluate our models on the IndicGLUE benchmark. We perform Mann-Whitney U test
to rigorously verify whether the effect of transliteration is significant or
not. We find that transliteration benefits the low-resource languages without
negatively affecting the comparatively high-resource languages. We also measure
the cross-lingual representation similarity (CLRS) of the models using centered
kernel alignment (CKA) on parallel sentences of eight languages from the
FLORES-101 dataset. We find that the hidden representations of the
transliteration-based model have higher and more stable CLRS scores. Our code
is available at Github (github.com/ibraheem-moosa/XLM-Indic) and Hugging Face
Hub (huggingface.co/ibraheemmoosa/xlmindic-base-multiscript and
huggingface.co/ibraheemmoosa/xlmindic-base-uniscript).
- Abstract(参考訳): 多くの言語に代表コーパスが不足しているため、MLLM(Multilingual Language Models)が既存のコーパスを最大限に抽出することが重要である。
この点において、スクリプトの多様性は、近縁言語間の語彙重なりを減らしてMLLMに挑戦する。
したがって、異なるスクリプトを共通スクリプトに翻訳することで、MLLMの下流タスク性能を向上させることができる。
本稿では,2つのALBERTモデルを事前学習し,MLLMに対する音読効果を実証的に測定する。
特に、世界で最もスクリプトの多様性が高いインド・アーリア語族に焦点を当てています。
その後、IndicGLUEベンチマークを用いてモデルの評価を行った。
翻訳の効果が有意かどうかを厳密に検証するためにmann-whitney uテストを行う。
翻訳は、比較的高いリソース言語に悪影響を及ぼすことなく、低リソース言語に恩恵をもたらすことが分かりました。
また、FLORES-101データセットから8つの言語の並列文に対して、中心的カーネルアライメント(CKA)を用いてモデルの言語間表現類似度(CLRS)を測定する。
翻訳ベースモデルの隠れ表現はCLRSスコアがより高く安定していることが判明した。
私たちのコードはGithub(github.com/ibraheem-moosa/XLM-Indic)とHugging Face Hub(huggingface.co/ibraheemmoosa/xlmindic-base-multiscript)で利用可能です。
関連論文リスト
- MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Could We Have Had Better Multilingual LLMs If English Was Not the Central Language? [4.655168524016426]
大規模言語モデル(LLM)は、トレーニング対象の言語に対して強力な機械翻訳能力を示す。
我々の研究は、Llama2の翻訳能力について論じている。
実験の結果,7B Llama2モデルはこれまでに見たすべての言語に翻訳すると10 BLEU以上になることがわかった。
論文 参考訳(メタデータ) (2024-02-21T16:32:38Z) - Hyperpolyglot LLMs: Cross-Lingual Interpretability in Token Embeddings [4.2243058640527575]
言語間移動学習は多言語大言語モデル(LLM)の重要な特性である
1)事前学習とモデルアーキテクチャが言語表現に与える影響,2)言語モデルに埋め込まれた言語間表現の応用について検討する。
論文 参考訳(メタデータ) (2023-11-29T19:20:14Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Multilingual Representation Distillation with Contrastive Learning [20.715534360712425]
コントラスト学習を多言語表現蒸留に統合し,並列文の品質評価に利用する。
我々は,多言語類似性探索とコーパスフィルタリングタスクによるアプローチの有効性を検証した。
論文 参考訳(メタデータ) (2022-10-10T22:27:04Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Exploiting Language Relatedness for Low Web-Resource Language Model
Adaptation: An Indic Languages Study [14.34516262614775]
言語族における言語間の関連性は、LRLのコーパス制限を克服するために悪用される可能性があると論じる。
我々はインドの言語に焦点をあて,(1)スクリプト(ブラフミック文字から派生した多くのインデックススクリプト)と(2)文構造という2つの次元に沿った関連性を活用する。
論文 参考訳(メタデータ) (2021-06-07T20:43:02Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。