論文の概要: One Model to Translate Them All? A Journey to Mount Doom for Multilingual Model Merging
- arxiv url: http://arxiv.org/abs/2604.02881v1
- Date: Fri, 03 Apr 2026 08:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.412256
- Title: One Model to Translate Them All? A Journey to Mount Doom for Multilingual Model Merging
- Title(参考訳): すべてを翻訳する1つのモデル : 多言語モデル統合のためのマウントドームへの旅
- Authors: Baban Gain, Asif Ekbal, Trilok Nath Singh,
- Abstract要約: 完全微調整言語モデルによる多言語機械翻訳における重み空間のマージについて検討する。
我々の実験では、特にターゲット言語が異なる場合、マージが性能を低下させることが明らかとなった。
これらの結果は、多言語微調整が標準重み空間のマージ仮定との整合性を低下させる方法で幾何学を再構築する可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 30.967619128236777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weight-space model merging combines independently fine-tuned models without accessing original training data, offering a practical alternative to joint training. While merging succeeds in multitask settings, its behavior in multilingual contexts remains poorly understood. We systematically study weight-space merging for multilingual machine translation by fully fine-tuning language model on large-scale bilingual corpora and evaluating standard merging strategies. Our experiments reveal that merging degrades performance, especially when target languages differ. To explain this failure, we analyze internal representations using span-conditioned neuron selectivity and layer-wise centered kernel alignment. We find that language-specific neurons concentrate in embedding layers and upper transformer blocks, while intermediate layers remain largely shared across languages. Critically, fine-tuning redistributes rather than sharpens language selectivity: neurons for supervised and related languages become less exclusive, while those for unsupervised languages grow more isolated. This redistribution increases representational divergence in higher layers that govern generation. These findings suggest that multilingual fine-tuning may reshape geometry in ways that reduce compatibility with standard weight-space merging assumptions. Our work thus provides an explanation for why merging fails in multilingual translation scenarios.
- Abstract(参考訳): 重量空間モデルのマージは、オリジナルのトレーニングデータにアクセスすることなく、独立して微調整されたモデルを組み合わせることで、共同トレーニングの実用的な代替手段を提供する。
マージはマルチタスク設定で成功するが、多言語コンテキストにおけるその振る舞いはいまだに理解されていない。
大規模バイリンガルコーパス上で完全に微調整された言語モデルを用いて,多言語機械翻訳のための重み空間マージを体系的に研究し,標準マージ戦略を評価する。
我々の実験では、特にターゲット言語が異なる場合、マージが性能を低下させることが明らかとなった。
この失敗を説明するために、スパンコンディショニングされたニューロン選択性とレイヤワイドのカーネルアライメントを用いて内部表現を分析する。
言語固有のニューロンは埋め込み層や上層トランスフォーマーブロックに集中しているが、中間層は言語間で大きく共有されている。
批判的に言えば、言語選択性を高めるのではなく、微調整された再編成である: 教師なし言語と関連する言語のためのニューロンは排他的ではなくなり、教師なし言語のためのニューロンはより孤立的に成長する。
この再分配は、生成を管理する上位層における表現のばらつきを増加させる。
これらの結果は、多言語微調整が標準重み空間のマージ仮定との整合性を低下させる方法で幾何学を再構築する可能性があることを示唆している。
そこで本研究では,多言語翻訳のシナリオでマージが失敗する理由を解説する。
関連論文リスト
- When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。
共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。
従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文 参考訳(メタデータ) (2026-01-30T11:23:01Z) - Tracing Multilingual Representations in LLMs with Cross-Layer Transcoders [51.380449540006985]
大規模言語モデル(LLM)は多くの言語を処理できるが、どのようにして内部的にこの多様性を表現しているのかは不明だ。
言語固有のデコーディングと多言語表現を共有できるのでしょうか?
層間トランスコーダ(CLT)と属性グラフを用いて内部メカニズムを解析する。
論文 参考訳(メタデータ) (2025-11-13T22:51:06Z) - False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - Group then Scale: Dynamic Mixture-of-Experts Multilingual Language Model [38.0723521889505]
18言語から128言語の実験結果から,本手法は言語間の負の移動を減らし,パラメータの少ない多言語性能を著しく向上させることが示された。
このような専門家の言語グループ専門化は、新しい言語適応の恩恵を受け、学習した過去の多言語知識に対する推論を減らす。
論文 参考訳(メタデータ) (2025-06-14T07:56:18Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。