論文の概要: Language Steering for Multilingual In-Context Learning
- arxiv url: http://arxiv.org/abs/2602.02326v1
- Date: Mon, 02 Feb 2026 16:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.307587
- Title: Language Steering for Multilingual In-Context Learning
- Title(参考訳): 多言語インコンテキスト学習のための言語ステアリング
- Authors: Neeraja Kirtane, Kuan-Hao Huang,
- Abstract要約: 非英語での大規模言語モデルのパフォーマンスは、英語よりもかなり劣っている。
トレーニング不要な言語ステアリングアプローチである言語ベクトルを提案する。
テスト対象のタスクや言語にまたがるベースライン上でのマルチランガル・イン・コンテクスト学習における一貫した改善を示す。
- 参考スコア(独自算出の注目度): 10.932074928744568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multilingual large language models have gained widespread adoption, their performance on non-English languages remains substantially inferior to English. This disparity is particularly evident in in-context learning scenarios, where providing demonstrations in English but testing on non-English inputs leads to significant performance degradation. In this paper, we hypothesize that LLMs develop a universal semantic space for understanding languages, where different languages are encoded as distinct directions within this space. Based on this hypothesis, we propose language vectors -- a training-free language steering approach that leverages activation differences between source and target languages to guide model behavior. We steer the model generations by adding the vector to the intermediate model activations during inference. This is done to make the model's internal representations shift towards the target language space without any parameter updates. We evaluate our method across three datasets and test on a total of 19 languages on three different models. Our results show consistent improvements on multilingual in-context learning over baselines across all tasks and languages tested. Beyond performance gains, hierarchical clustering of steering vectors reveals meaningful linguistic structure aligned with language families. These vectors also successfully transfer across tasks, demonstrating that these representations are task-agnostic.
- Abstract(参考訳): 多言語大言語モデルは広く採用されているが、英語以外の言語での性能は英語よりも著しく劣っている。
この格差は、英語でデモンストレーションを提供するが、英語以外の入力をテストすることによって、パフォーマンスが著しく低下する、コンテキスト内学習のシナリオにおいて特に顕著である。
本稿では,LLMが言語理解のための普遍的な意味空間を構築し,異なる言語をこの空間内の異なる方向として符号化する,という仮説を立てる。
この仮説に基づいて,学習不要な言語ステアリング手法である言語ベクトルを提案する。
推論中に中間モデルアクティベーションにベクトルを追加することで、モデル生成を操縦する。
これは、パラメータを更新することなく、モデルの内部表現をターゲット言語空間にシフトさせるためである。
提案手法は3つのデータセットにまたがって評価し、3つの異なるモデル上で19の言語で検証する。
提案手法は,テスト対象のタスクや言語に対して,ベースライン上でのマルチランガル・イン・コンテクスト学習における一貫した改善を示す。
性能向上以外にも、ステアリングベクトルの階層的クラスタリングは、言語ファミリーと整合した意味のある言語構造を明らかにしている。
これらのベクトルはタスク間での転送にも成功し、これらの表現がタスクに依存しないことを示した。
関連論文リスト
- Adapting Language Models to Indonesian Local Languages: An Empirical Study of Language Transferability on Zero-Shot Settings [1.1556013985948772]
インドネシアの低リソース言語への事前学習言語モデルの転送性を評価する。
私たちはターゲット言語を、見る、見る、見る、見る、見えない3つのカテゴリに分類します。
マルチ言語モデルは、目に見える言語で、部分的に見られる言語では適度に、目に見えない言語では劣る。
対象言語にラベル付きデータを必要としないため,MAD-Xは性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-07-02T12:17:55Z) - Language Surgery in Multilingual Large Language Models [39.66404344691661]
大規模言語モデル(LLM)はタスクや言語にまたがる顕著な一般化機能を示している。
本稿では, LLMにおける自然に出現する表現アライメント, 特に中層における表現アライメントについて検討する。
Inference-Time Language Control (ITLC) を提案する。
論文 参考訳(メタデータ) (2025-06-14T11:09:50Z) - High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。
資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。
多言語 LLM は非一貫性な言語間アライメントを示す。
論文 参考訳(メタデータ) (2025-03-14T10:39:27Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - The Less the Merrier? Investigating Language Representation in
Multilingual Models [8.632506864465501]
多言語モデルにおける言語表現について検討する。
我々は、コミュニティ中心のモデルが、低リソース言語で同じ家系の言語を区別する上で、より良い性能を発揮することを実験から観察した。
論文 参考訳(メタデータ) (2023-10-20T02:26:34Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。