論文の概要: ALIGN-MLM: Word Embedding Alignment is Crucial for Multilingual
Pre-training
- arxiv url: http://arxiv.org/abs/2211.08547v1
- Date: Tue, 15 Nov 2022 22:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 13:45:28.586892
- Title: ALIGN-MLM: Word Embedding Alignment is Crucial for Multilingual
Pre-training
- Title(参考訳): ALIGN-MLM:多言語事前学習のための単語埋め込みアライメント
- Authors: Henry Tang, Ameet Deshpande, Karthik Narasimhan
- Abstract要約: 補助的損失が類似した単語を異なる言語で案内し、類似した単語を埋め込みする事前学習対象(ALIGN-MLM)を提案する。
ALIGN-MLM は XLM よりも優れており,文字順と単語順の異なる言語間でのPOSタグ付けでは 35 点,30 F1 点が優れていることを示す。
- 参考スコア(独自算出の注目度): 22.053123036772053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual pre-trained models exhibit zero-shot cross-lingual transfer,
where a model fine-tuned on a source language achieves surprisingly good
performance on a target language. While studies have attempted to understand
transfer, they focus only on MLM, and the large number of differences between
natural languages makes it hard to disentangle the importance of different
properties. In this work, we specifically highlight the importance of word
embedding alignment by proposing a pre-training objective (ALIGN-MLM) whose
auxiliary loss guides similar words in different languages to have similar word
embeddings. ALIGN-MLM either outperforms or matches three widely adopted
objectives (MLM, XLM, DICT-MLM) when we evaluate transfer between pairs of
natural languages and their counterparts created by systematically modifying
specific properties like the script. In particular, ALIGN-MLM outperforms XLM
and MLM by 35 and 30 F1 points on POS-tagging for transfer between languages
that differ both in their script and word order (left-to-right v.s.
right-to-left). We also show a strong correlation between alignment and
transfer for all objectives (e.g., rho=0.727 for XNLI), which together with
ALIGN-MLM's strong performance calls for explicitly aligning word embeddings
for multilingual models.
- Abstract(参考訳): ソース言語で微調整されたモデルは、ターゲット言語で驚くほど優れたパフォーマンスを達成します。
研究は移動の理解を試みているが、それらはmlmのみに焦点を当てており、自然言語間の多くの違いは異なる性質の重要性を区別することが困難である。
本研究では,補助的損失が異なる言語で類似語を導く事前学習目標(align-mlm)を提案することで,単語埋め込みアライメントの重要性を特に強調する。
ALIGN-MLMは、スクリプトのような特定の特性を体系的に修正して作成した自然言語のペアとそれら間の移動を評価する際に、広く採用されている3つの目的(MLM, XLM, DICT-MLM)より優れるか、あるいは適合する。
特に、ALIGN-MLM は XLM と MLM を 35 と 30 F1 で上回り、スクリプトと単語順で異なる言語(左対右対右対右)間で POS タグ付けを行う。
また、ALIGN-MLMの多言語モデルに対する単語埋め込みを明示的に整合させる強力な性能要求とともに、全ての目的(例えば、XNLIのrho=0.727)に対するアライメントと転送の間に強い相関関係を示す。
関連論文リスト
- Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs [20.756383171892608]
中層は言語間アライメントの可能性が強い。
スロットフィリング、機械翻訳、構造化テキスト生成の実験は、言語間転送における一貫した改善を示している。
我々は、個別に訓練されたアライメントモジュールを既存のタスク固有のモジュールとマージすることができ、完全に再トレーニングすることなく言語間の機能を改善することを示す。
論文 参考訳(メタデータ) (2025-02-20T18:45:43Z) - Linguistic Entity Masking to Improve Cross-Lingual Representation of Multilingual Language Models for Low-Resource Languages [1.131401554081614]
本稿では,新しいマスキング戦略であるLingguistic Entity Masking (LEM)を導入し,継続事前学習のステップで使用する。
LEMは、動詞、名詞、名前付き実体にマスキングを制限し、文中に高い優位性を保持する。
我々は3つの下流タスク,すなわちbitext mining, parallel data curation, code-mixed sentiment analysis を用いて LEM の有効性を評価する。
論文 参考訳(メタデータ) (2025-01-10T04:17:58Z) - Pruning Multilingual Large Language Models for Multilingual Inference [28.36717615166238]
本研究では,非英語言語におけるMLLMのゼロショット性能を向上させる方法について検討する。
まず、翻訳を行う際のMLLMの挙動を分析し、翻訳過程において重要な役割を果たす大きな特徴があることを明らかにする。
論文 参考訳(メタデータ) (2024-09-25T13:15:50Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。