論文の概要: When Alignment Hurts: Decoupling Representational Spaces in Multilingual Models
- arxiv url: http://arxiv.org/abs/2508.12803v1
- Date: Mon, 18 Aug 2025 10:34:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.24517
- Title: When Alignment Hurts: Decoupling Representational Spaces in Multilingual Models
- Title(参考訳): アライメントハルト:多言語モデルにおける表現空間のデカップリング
- Authors: Ahmed Elshabrawy, Hour Kaing, Haiyue Song, Alham Fikri Aji, Hideki Tanaka, Masao Utiyama, Raj Dabre,
- Abstract要約: 本稿では,大言語モデルの内部表現幾何学を解析し,直接介入することによって,この現象の包括的因果的研究を行う。
我々の重要な貢献は、微調整中に標準品種のサブスペースを継続的に推定するオンライン変分探索フレームワークである。
25の方言にまたがって、我々の介入は、通常の微調整と比較して、平均で+4.9 chrF++と+2.0で生成品質を向上させる。
- 参考スコア(独自算出の注目度): 33.2971850129622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment with high-resource standard languages is often assumed to aid the modeling of related low-resource varieties. We challenge this assumption by demonstrating that excessive representational entanglement with a dominant variety, such as Modern Standard Arabic (MSA) in relation to Arabic dialects, can actively hinder generative modeling. We present the first comprehensive causal study of this phenomenon by analyzing and directly intervening in the internal representation geometry of large language models (LLMs). Our key contribution is an online variational probing framework that continuously estimates the subspace of the standard variety during fine-tuning, enabling projection-based decoupling from this space. While our study uses Arabic as a case due to its unusually rich parallel resources across 25 dialects, the broader motivation is methodological: dialectal MT serves as a controlled proxy for generative tasks where comparable multi-variety corpora are unavailable. Across 25 dialects, our intervention improves generation quality by up to +4.9 chrF++ and +2.0 on average compared to standard fine-tuning, despite a measured tradeoff in standard-language performance. These results provide causal evidence that subspace dominance by high-resource varieties can restrict generative capacity for related varieties. More generally, we unify geometric and information-theoretic probing with subspace-level causal interventions, offering practical tools for improving generative modeling in closely related language families and, more broadly, for controlling representational allocation in multilingual and multi-domain LLMs. Code will be released.
- Abstract(参考訳): 高リソース標準言語とのアライメントはしばしば、関連する低リソース多様体のモデリングに役立つと仮定される。
本研究は,現代標準アラビア語(MSA)のような支配的品種との過剰な表現的絡み合いが,アラビア方言との関連で,生成的モデリングを積極的に妨げていることを示すことによって,この仮定に挑戦する。
本稿では,大言語モデル(LLM)の内部表現幾何学を解析し,直接介入することによって,この現象を包括的に研究する。
我々の重要な貢献は、オンラインの変分探索フレームワークで、微調整中に標準多様体の部分空間を連続的に推定し、この空間からプロジェクションベースの疎結合を可能にする。
本研究はアラビア語を25の方言にまたがる非常に豊富な並行資源のために用いているが、より広範な動機は方法論的であり、方言 MT は同種の多変量コーパスが利用できない生成タスクの制御プロキシとして機能する。
25の方言にまたがって、標準言語のパフォーマンスのトレードオフはあるものの、平均で+4.9 chrF++と+2.0で生成品質を向上します。
これらの結果は、高資源多様体による部分空間支配が関連する品種の生成能力を制限できるという因果的証拠を与える。
より一般的に、幾何学的および情報理論的な探索をサブスペースレベルの因果介入と統合し、近縁言語群における生成モデリングを改善するための実用的なツールを提供し、より広範に、多言語および多ドメインLLMにおける表現割当を制御するための実用的なツールを提供する。
コードはリリースされる。
関連論文リスト
- DialUp! Modeling the Language Continuum by Adapting Models to Dialects and Dialects to Models [11.066884521130056]
世界の言語や方言のほとんどは低リソースであり、機械翻訳(MT)モデルをサポートしていない。
本稿では,事前学習したモデルを方言データに適用するための訓練時間技術であるDialUpについて述べる。
4つの言語族に属するいくつかの方言では高い成績を示し,他の2つの言語族では控えめな成績を示した。
論文 参考訳(メタデータ) (2025-01-27T23:53:04Z) - ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Multilingual Contrastive Framework [78.07201802874529]
ShifConはシフトベースの多言語コントラストフレームワークで、他の言語の内部のフォワードプロセスを支配的な言語に合わせる。
実験により、我々のShifConフレームワークは、非支配言語の性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-10-25T10:28:59Z) - Investigating Language-Specific Calibration For Pruning Multilingual Large Language Models [11.421452042888523]
多様な言語,タスク,モデル,および SotA プルーニング技術を用いて,多言語モデルをプルーニングするためのキャリブレーション言語を比較した。
例えば、ターゲット言語を校正することで、効率的に言語モデリング能力を維持することができるが、必ずしも下流タスクに利益をもたらすとは限らない。
論文 参考訳(メタデータ) (2024-08-26T16:29:13Z) - Explicit Word Density Estimation for Language Modelling [24.8651840630298]
ニューラルネットワークと正規化フローの連続的類似に基づく新しい言語モデル群を提案する。
本研究では,ニューラルネットワークと正規化フローの連続的類似に基づく新しい言語モデル群を提案する。
論文 参考訳(メタデータ) (2024-06-10T15:21:33Z) - On the Universality of Deep COntextual Language Models [15.218264849664715]
ELMOやBERTのような深い文脈言語モデル(LM)は、自然言語処理のランドスケープを支配している。
XLM-RやmBERTのような多言語モデルでは、ゼロショットのクロスリンガル転送が期待できる結果となった。
この最初の成功により、訓練済みのモデルはユニバーサル言語モデルとして使用されている。
論文 参考訳(メタデータ) (2021-09-15T08:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。