論文の概要: Language Lives in Sparse Dimensions: Toward Interpretable and Efficient Multilingual Control for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.07213v1
- Date: Wed, 08 Oct 2025 16:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.63886
- Title: Language Lives in Sparse Dimensions: Toward Interpretable and Efficient Multilingual Control for Large Language Models
- Title(参考訳): スパース次元における言語生活:大規模言語モデルに対する解釈可能かつ効率的な多言語制御を目指して
- Authors: Chengzhi Zhong, Fei Cheng, Qianying Liu, Yugo Murawaki, Chenhui Chu, Sadao Kurohashi,
- Abstract要約: 大規模言語モデルは、英語以外のデータに限られているにもかかわらず、強い多言語機能を示す。
英語中心の大規模言語モデルは、中間層における多言語コンテンツを英語対応の表現にマッピングし、最終層内のターゲット言語トークン空間に投影する。
並列データと単言語データのいずれにおいても,50文以内しか必要とせず,これらの次元を識別・操作する簡単な学習自由手法を提案する。
- 参考スコア(独自算出の注目度): 39.550695697979855
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models exhibit strong multilingual capabilities despite limited exposure to non-English data. Prior studies show that English-centric large language models map multilingual content into English-aligned representations at intermediate layers and then project them back into target-language token spaces in the final layer. From this observation, we hypothesize that this cross-lingual transition is governed by a small and sparse set of dimensions, which occur at consistent indices across the intermediate to final layers. Building on this insight, we introduce a simple, training-free method to identify and manipulate these dimensions, requiring only as few as 50 sentences of either parallel or monolingual data. Experiments on a multilingual generation control task reveal the interpretability of these dimensions, demonstrating that the interventions in these dimensions can switch the output language while preserving semantic content, and that it surpasses the performance of prior neuron-based approaches at a substantially lower cost.
- Abstract(参考訳): 大規模言語モデルは、英語以外のデータに限られているにもかかわらず、強い多言語機能を示す。
先行研究により、英語中心の大規模言語モデルは、中間層における多言語コンテンツを英語対応の表現にマッピングし、最終層におけるターゲット言語トークン空間に投影することを示した。
この観察から、この言語間遷移は、中間層から最終層にまたがる一貫した指標で起こる、小さくスパースな次元の集合によって支配されると仮定する。
この知見に基づいて、これらの次元を識別し、操作するための単純で訓練不要な手法を導入し、並列データまたは単言語データの50文までしか必要としない。
多言語生成制御タスクの実験は、これらの次元の解釈可能性を明らかにし、これらの次元への介入は、意味的内容を保持しながら出力言語を切り替えることができ、それ以前のニューロンベースのアプローチの性能を大幅に低コストで達成できることを示した。
関連論文リスト
- High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。
資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。
多言語 LLM は非一貫性な言語間アライメントを示す。
論文 参考訳(メタデータ) (2025-03-14T10:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。