Fugu-MT 論文翻訳(概要): One Model to Translate Them All? A Journey to Mount Doom for Multilingual Model Merging

論文の概要: One Model to Translate Them All? A Journey to Mount Doom for Multilingual Model Merging

arxiv url: http://arxiv.org/abs/2604.02881v1
Date: Fri, 03 Apr 2026 08:45:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.412256
Title: One Model to Translate Them All? A Journey to Mount Doom for Multilingual Model Merging
Title（参考訳）: すべてを翻訳する1つのモデル : 多言語モデル統合のためのマウントドームへの旅
Authors: Baban Gain, Asif Ekbal, Trilok Nath Singh,
Abstract要約: 完全微調整言語モデルによる多言語機械翻訳における重み空間のマージについて検討する。我々の実験では、特にターゲット言語が異なる場合、マージが性能を低下させることが明らかとなった。これらの結果は、多言語微調整が標準重み空間のマージ仮定との整合性を低下させる方法で幾何学を再構築する可能性があることを示唆している。
参考スコア（独自算出の注目度）: 30.967619128236777
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Weight-space model merging combines independently fine-tuned models without accessing original training data, offering a practical alternative to joint training. While merging succeeds in multitask settings, its behavior in multilingual contexts remains poorly understood. We systematically study weight-space merging for multilingual machine translation by fully fine-tuning language model on large-scale bilingual corpora and evaluating standard merging strategies. Our experiments reveal that merging degrades performance, especially when target languages differ. To explain this failure, we analyze internal representations using span-conditioned neuron selectivity and layer-wise centered kernel alignment. We find that language-specific neurons concentrate in embedding layers and upper transformer blocks, while intermediate layers remain largely shared across languages. Critically, fine-tuning redistributes rather than sharpens language selectivity: neurons for supervised and related languages become less exclusive, while those for unsupervised languages grow more isolated. This redistribution increases representational divergence in higher layers that govern generation. These findings suggest that multilingual fine-tuning may reshape geometry in ways that reduce compatibility with standard weight-space merging assumptions. Our work thus provides an explanation for why merging fails in multilingual translation scenarios.
Abstract（参考訳）: 重量空間モデルのマージは、オリジナルのトレーニングデータにアクセスすることなく、独立して微調整されたモデルを組み合わせることで、共同トレーニングの実用的な代替手段を提供する。マージはマルチタスク設定で成功するが、多言語コンテキストにおけるその振る舞いはいまだに理解されていない。大規模バイリンガルコーパス上で完全に微調整された言語モデルを用いて,多言語機械翻訳のための重み空間マージを体系的に研究し,標準マージ戦略を評価する。我々の実験では、特にターゲット言語が異なる場合、マージが性能を低下させることが明らかとなった。この失敗を説明するために、スパンコンディショニングされたニューロン選択性とレイヤワイドのカーネルアライメントを用いて内部表現を分析する。言語固有のニューロンは埋め込み層や上層トランスフォーマーブロックに集中しているが、中間層は言語間で大きく共有されている。批判的に言えば、言語選択性を高めるのではなく、微調整された再編成である: 教師なし言語と関連する言語のためのニューロンは排他的ではなくなり、教師なし言語のためのニューロンはより孤立的に成長する。この再分配は、生成を管理する上位層における表現のばらつきを増加させる。これらの結果は、多言語微調整が標準重み空間のマージ仮定との整合性を低下させる方法で幾何学を再構築する可能性があることを示唆している。そこで本研究では,多言語翻訳のシナリオでマージが失敗する理由を解説する。

論文の概要: One Model to Translate Them All? A Journey to Mount Doom for Multilingual Model Merging

関連論文リスト