論文の概要: AlignFreeze: Navigating the Impact of Realignment on the Layers of Multilingual Models Across Diverse Languages
- arxiv url: http://arxiv.org/abs/2502.12959v1
- Date: Tue, 18 Feb 2025 15:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:38.193849
- Title: AlignFreeze: Navigating the Impact of Realignment on the Layers of Multilingual Models Across Diverse Languages
- Title(参考訳): AlignFreeze: 複数言語間の多言語モデルの層への影響をナビゲートする
- Authors: Steve Bakos, Félix Gaschi, David Guzmán, Riddhi More, Kelly Chutong Li, En-Shiun Annie Lee,
- Abstract要約: 多言語言語モデルにおいて、言語間移動を強化するために、直観的手法がしばしば用いられる。
本稿では,アリンフリーズ(AlignFreeze)について紹介する。
- 参考スコア(独自算出の注目度): 1.2958777619754132
- License:
- Abstract: Realignment techniques are often employed to enhance cross-lingual transfer in multilingual language models, still, they can sometimes degrade performance in languages that differ significantly from the fine-tuned source language. This paper introduces AlignFreeze, a method that freezes either the layers' lower half or upper half during realignment. Through controlled experiments on 4 tasks, 3 models, and in 35 languages, we find that realignment affects all the layers but can be the most detrimental to the lower ones. Freezing the lower layers can prevent performance degradation. Particularly, AlignFreeze improves Part-of-Speech (PoS) tagging performances in languages where full realignment fails: with XLM-R, it provides improvements of more than one standard deviation in accuracy in seven more languages than full realignment.
- Abstract(参考訳): 多言語言語モデルにおける言語間移動の促進にしばしば使用されるが、微調整されたソースコード言語とは大きく異なる言語で性能を低下させることがある。
本稿では,アリンフリーズ(AlignFreeze)について紹介する。
4つのタスク、3つのモデル、35の言語で制御された実験により、配向はすべての層に影響を与えるが、下位層にとって最も有害であることがわかった。
下層を凍結すると性能が低下する。
特にAlignFreezeは、完全な認識が失敗する言語におけるPart-of-Speech(PoS)タグのパフォーマンスを改善している。
関連論文リスト
- ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Contrastive Framework [78.07201802874529]
ShifConはShiftベースのContrastiveフレームワークで、他の言語の内部の前進プロセスを支配的な言語に合わせる。
非支配的な言語の表現を支配的な言語サブスペースに移行し、モデルパラメータにエンコードされた比較的リッチな情報にアクセスできるようにする。
実験により、我々のShifConフレームワークは、非支配言語の性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-10-25T10:28:59Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - Exploring the Relationship between Alignment and Cross-lingual Transfer
in Multilingual Transformers [0.6882042556551609]
多言語言語モデルは、明示的な言語間訓練データなしで言語間移動を実現することができる。
この転送を改善する一般的な方法の1つは、微調整の前に調整ステップを実行することである。
しかし、言語やタスク間で結果が常に改善されるわけではないことが判明した。
論文 参考訳(メタデータ) (2023-06-05T11:35:40Z) - Analyzing and Reducing the Performance Gap in Cross-Lingual Transfer
with Fine-tuning Slow and Fast [50.19681990847589]
既存の研究では、1つの(ソース)言語で微調整された多言語事前学習言語モデルが、非ソース言語の下流タスクでもうまく機能していることが示されている。
本稿では、微調整プロセスを分析し、パフォーマンスギャップがいつ変化するかを分析し、ネットワークの重みが全体のパフォーマンスに最も影響するかを特定する。
論文 参考訳(メタデータ) (2023-05-19T06:04:21Z) - Learning Language-Specific Layers for Multilingual Machine Translation [1.997704019887898]
言語特化トランスフォーマー層(LSL)を紹介する。
LSLは、計算量と前方通過定数のパラメータ数を保ちながら、モデルのキャパシティを向上させることができる。
我々は、ニューラルネットワーク探索にインスパイアされたアプローチを用いて、これらの層を配置する最善の方法を研究し、分離されたデコーダアーキテクチャではLSLを使用しない 1.3 chrF (1.5 spBLEU) 点、共有デコーダでは 1.9 chrF (2.2 spBLEU) 点の改善を実現した。
論文 参考訳(メタデータ) (2023-05-04T09:18:05Z) - The Impact of Cross-Lingual Adjustment of Contextual Word
Representations on Zero-Shot Transfer [3.300216758849348]
mBERTやXLM-Rのような大規模な多言語言語モデルは、様々なIRやNLPタスクにおいてゼロショットの言語間転送を可能にする。
そこで本研究では,mBERTの並列コーパスを用いた言語間相互調整のためのデータ・計算効率向上手法を提案する。
類型的に多様な言語(スペイン語、ロシア語、ベトナム語、ヒンディー語)を実験し、その実装を新しいタスクに拡張する。
NER, XSR, 言語間QAを改良した4言語でのNLIの再生ゲインについて検討した。
論文 参考訳(メタデータ) (2022-04-13T15:28:43Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。