論文の概要: Language Lives in Sparse Dimensions: Toward Interpretable and Efficient Multilingual Control for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.07213v1
- Date: Wed, 08 Oct 2025 16:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.63886
- Title: Language Lives in Sparse Dimensions: Toward Interpretable and Efficient Multilingual Control for Large Language Models
- Title(参考訳): スパース次元における言語生活:大規模言語モデルに対する解釈可能かつ効率的な多言語制御を目指して
- Authors: Chengzhi Zhong, Fei Cheng, Qianying Liu, Yugo Murawaki, Chenhui Chu, Sadao Kurohashi,
- Abstract要約: 大規模言語モデルは、英語以外のデータに限られているにもかかわらず、強い多言語機能を示す。
英語中心の大規模言語モデルは、中間層における多言語コンテンツを英語対応の表現にマッピングし、最終層内のターゲット言語トークン空間に投影する。
並列データと単言語データのいずれにおいても,50文以内しか必要とせず,これらの次元を識別・操作する簡単な学習自由手法を提案する。
- 参考スコア(独自算出の注目度): 39.550695697979855
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models exhibit strong multilingual capabilities despite limited exposure to non-English data. Prior studies show that English-centric large language models map multilingual content into English-aligned representations at intermediate layers and then project them back into target-language token spaces in the final layer. From this observation, we hypothesize that this cross-lingual transition is governed by a small and sparse set of dimensions, which occur at consistent indices across the intermediate to final layers. Building on this insight, we introduce a simple, training-free method to identify and manipulate these dimensions, requiring only as few as 50 sentences of either parallel or monolingual data. Experiments on a multilingual generation control task reveal the interpretability of these dimensions, demonstrating that the interventions in these dimensions can switch the output language while preserving semantic content, and that it surpasses the performance of prior neuron-based approaches at a substantially lower cost.
- Abstract(参考訳): 大規模言語モデルは、英語以外のデータに限られているにもかかわらず、強い多言語機能を示す。
先行研究により、英語中心の大規模言語モデルは、中間層における多言語コンテンツを英語対応の表現にマッピングし、最終層におけるターゲット言語トークン空間に投影することを示した。
この観察から、この言語間遷移は、中間層から最終層にまたがる一貫した指標で起こる、小さくスパースな次元の集合によって支配されると仮定する。
この知見に基づいて、これらの次元を識別し、操作するための単純で訓練不要な手法を導入し、並列データまたは単言語データの50文までしか必要としない。
多言語生成制御タスクの実験は、これらの次元の解釈可能性を明らかにし、これらの次元への介入は、意味的内容を保持しながら出力言語を切り替えることができ、それ以前のニューロンベースのアプローチの性能を大幅に低コストで達成できることを示した。
関連論文リスト
- Language Steering for Multilingual In-Context Learning [10.932074928744568]
非英語での大規模言語モデルのパフォーマンスは、英語よりもかなり劣っている。
トレーニング不要な言語ステアリングアプローチである言語ベクトルを提案する。
テスト対象のタスクや言語にまたがるベースライン上でのマルチランガル・イン・コンテクスト学習における一貫した改善を示す。
論文 参考訳(メタデータ) (2026-02-02T16:52:09Z) - When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。
共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。
従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文 参考訳(メタデータ) (2026-01-30T11:23:01Z) - High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。
資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。
多言語 LLM は非一貫性な言語間アライメントを示す。
論文 参考訳(メタデータ) (2025-03-14T10:39:27Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。
本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2022-10-13T19:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。