論文の概要: Cross-Lingual Activation Steering for Multilingual Language Models
- arxiv url: http://arxiv.org/abs/2601.16390v1
- Date: Fri, 23 Jan 2026 01:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.499091
- Title: Cross-Lingual Activation Steering for Multilingual Language Models
- Title(参考訳): 多言語言語モデルのための言語間アクティベーションステアリング
- Authors: Rhitabrat Pokharel, Ameeta Agrawal, Tanay Nagar,
- Abstract要約: 大規模言語モデルは強い多言語能力を示すが、支配的な言語と非支配的な言語の間には大きなパフォーマンスギャップが持続する。
ニューロンの活性化を選択的に調節する訓練不要な推論時間介入であるクロスリンガル活性化ステアリング(CLAS)を提案する。
本研究は, 既存のモデルにおいて, モデル重みを変更することなく, 目標活性化ステアリングが潜在多言語能力を解放できることを実証するものである。
- 参考スコア(独自算出の注目度): 3.772378882850512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models exhibit strong multilingual capabilities, yet significant performance gaps persist between dominant and non-dominant languages. Prior work attributes this gap to imbalances between shared and language-specific neurons in multilingual representations. We propose Cross-Lingual Activation Steering (CLAS), a training-free inference-time intervention that selectively modulates neuron activations. We evaluate CLAS on classification and generation benchmarks, achieving average improvements of 2.3% (Acc.) and 3.4% (F1) respectively, while maintaining high-resource language performance. We discover that effective transfer operates through functional divergence rather than strict alignment; performance gains correlate with increased language cluster separation. Our results demonstrate that targeted activation steering can unlock latent multilingual capacity in existing models without modification to model weights.
- Abstract(参考訳): 大規模言語モデルは強い多言語能力を示すが、支配的な言語と非支配的な言語の間には大きなパフォーマンスギャップが持続する。
以前の作業では、このギャップは多言語表現における共有ニューロンと言語固有のニューロンの不均衡に起因している。
ニューロンの活性化を選択的に調節する訓練不要な推論時間介入であるクロスリンガル活性化ステアリング(CLAS)を提案する。
我々はCLASを分類と生成のベンチマークで評価し、それぞれ2.3%(Acc.)と3.4%(F1)の平均的な改善を実現した。
性能向上は言語クラスタ分離の増大と相関する。
本研究は, 既存のモデルにおいて, モデル重みを変更することなく, 目標活性化ステアリングが潜在多言語能力を解放できることを実証するものである。
関連論文リスト
- Sparse Subnetwork Enhancement for Underrepresented Languages in Large Language Models [11.719190735841407]
大規模な言語モデルは、言語間で不均一なパフォーマンスを示す。
表現不足言語におけるLLMの単言語機能向上のためのフレームワークを提案する。
言語活性化確率エントロピーを用いて言語特異的ニューロンを同定し,これらのニューロンに付随する重みのみを微細トンネルで同定する。
論文 参考訳(メタデータ) (2025-10-15T14:14:49Z) - Towards Inclusive NLP: Assessing Compressed Multilingual Transformers across Diverse Language Benchmarks [33.2185998586144]
本研究は、アラビア語、英語、インド語にまたがる多言語および単言語大言語モデル(LLM)の性能をベンチマークする。
発見は言語的多様性と資源の可利用性によって引き起こされる顕著なパフォーマンスの違いを示している。
量子化(4ビットと8ビット)は、効率を向上しながらモデルの精度を維持するのに有効であるが、アグレッシブプルーニングは性能を著しく損なう。
論文 参考訳(メタデータ) (2025-07-25T22:35:10Z) - Adapting Language Models to Indonesian Local Languages: An Empirical Study of Language Transferability on Zero-Shot Settings [1.1556013985948772]
インドネシアの低リソース言語への事前学習言語モデルの転送性を評価する。
私たちはターゲット言語を、見る、見る、見る、見る、見えない3つのカテゴリに分類します。
マルチ言語モデルは、目に見える言語で、部分的に見られる言語では適度に、目に見えない言語では劣る。
対象言語にラベル付きデータを必要としないため,MAD-Xは性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-07-02T12:17:55Z) - CC-Tuning: A Cross-Lingual Connection Mechanism for Improving Joint Multilingual Supervised Fine-Tuning [48.69343479132896]
CC-Tuningは、多言語間接続機構を潜在レベルで明確に確立する、新しい多言語ファインチューニングパラダイムである。
訓練中、CC-Tuningは英語と非英語の両方からのフィードフォワードアクティベーションを融合させ、モデルが両方の言語資源の恩恵を受けることを可能にする。
22の言語をカバーする6つのベンチマークの実験では、CC-TuningはバニラSFTより優れており、データレベルの拡張方法に代わる強力な潜在レベルを提供する。
論文 参考訳(メタデータ) (2025-06-01T07:20:55Z) - Balanced Multi-Factor In-Context Learning for Multilingual Large Language Models [53.38288894305388]
MLLM(Multilingual Large Language Model)は,言語間知識伝達をパラメータ更新なしで活用することにより,文脈内学習(ICL)を活用して高い性能を実現する。
1) 意味的類似性,(2) 言語的アライメント,(3) 言語固有のパフォーマンスの3つの要因が多言語ICLに影響を与える。
我々は,これらの因子を定量化し,最適にバランスをとる手法として,バランスの取れた多要素ICL(textbfBMF-ICL)を提案する。
論文 参考訳(メタデータ) (2025-02-17T06:56:33Z) - The Impact of Model Scaling on Seen and Unseen Language Performance [2.012425476229879]
本研究では204言語にわたる多言語大言語モデルの性能とスケーリングの挙動について検討する。
その結果,ゼロショットシナリオと2ショットシナリオのスケーリング挙動に有意な差が認められた。
2ショット設定では、より大きなモデルは多言語テキスト分類において明確な線形改善を示す。
論文 参考訳(メタデータ) (2025-01-10T00:10:21Z) - ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Multilingual Contrastive Framework [78.07201802874529]
ShifConはシフトベースの多言語コントラストフレームワークで、他の言語の内部のフォワードプロセスを支配的な言語に合わせる。
実験により、我々のShifConフレームワークは、非支配言語の性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-10-25T10:28:59Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。