論文の概要: Language steering in latent space to mitigate unintended code-switching
- arxiv url: http://arxiv.org/abs/2510.13849v1
- Date: Sat, 11 Oct 2025 19:49:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.472826
- Title: Language steering in latent space to mitigate unintended code-switching
- Title(参考訳): 意図しないコードスイッチングを緩和する潜在空間における言語ステアリング
- Authors: Andrey Goncharov, Nikolai Kondusov, Alexey Zaytsev,
- Abstract要約: 大きな言語モデル(LLM)は意図しないコードスイッチングを示し、下流タスクの信頼性を低下させる。
並列翻訳におけるPCAによる言語方向を識別する軽量な推論時間法である潜在空間言語ステアリングを提案する。
提案手法は,計算オーバーヘッドの少ないセマンティクスを保ちながら,コードスイッチングを緩和する。
- 参考スコア(独自算出の注目度): 1.1330938617817454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual Large Language Models (LLMs) often exhibit unintended code-switching, reducing reliability in downstream tasks. We propose latent-space language steering, a lightweight inference-time method that identifies language directions via PCA on parallel translations and steers token embeddings along these axes to control language identity. Our approach mitigates code-switching while preserving semantics with negligible computational overhead and requires only minimal parallel data for calibration. Empirically, we achieve 95-99\% language classification accuracy using a single principal component and reduce next-token distributional divergence by up to 42% across multiple language pairs on Qwen2.5 and Llama-3.2 models. We further analyze the layer-wise evolution of language representations, revealing that language identity concentrates in final layers with near-perfect linear separability.
- Abstract(参考訳): 多言語大言語モデル(LLM)は意図しないコードスイッチングを示し、下流タスクの信頼性を低下させる。
並列翻訳におけるPCAによる言語指示を識別し,これらの軸に沿ってステアトークンを埋め込み,言語同一性を制御する軽量な推論時ステアリングを提案する。
計算オーバーヘッドの少ないセマンティクスを保ちながらコードスイッチングを軽減し,キャリブレーションに最小限の並列データしか必要としない。
Qwen2.5 と Llama-3.2 のモデルにおいて, 一つの主成分を用いて 95-99\% の言語分類精度を達成し, 複数言語対間での次点分布のばらつきを最大 42% 低減する。
さらに,言語表現の階層的進化を解析し,言語アイデンティティがほぼ完全な線形分離性を持つ最終層に集中していることを明らかにする。
関連論文リスト
- Evaluating Multilingual and Code-Switched Alignment in LLMs via Synthetic Natural Language Inference [2.172419551358714]
大規模言語モデル(LLM)は多言語的文脈においてますます適用されているが、言語間で一貫した論理的に根ざしたアライメントの能力は未定である。
本稿では、論理に基づく前提-仮説ペアを生成する多言語自然言語推論のフレームワークを提案し、それらを類型的に多様な言語に翻訳する。
コードスイッチングは劣化せず、性能も向上し、翻訳によって引き起こされる語彙の変化が正規化信号として機能することを示唆している。
論文 参考訳(メタデータ) (2025-08-20T14:30:34Z) - Causal Language Control in Multilingual Transformers via Sparse Feature Steering [7.754609745940422]
マルチ言語モデルの生成言語を操るために,スパースオートエンコーダの機能を活用できるかどうかを検討する。
我々は、FastText言語分類によって測定された、最大90%の成功で制御された言語シフトを達成する。
解析の結果,言語ステアリングは中間から後期のトランスフォーマー層において最も効果的であることが判明した。
論文 参考訳(メタデータ) (2025-07-17T06:49:16Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Lost in Multilinguality: Dissecting Cross-lingual Factual Inconsistency in Transformer Language Models [49.16690802656554]
複数の言語で意味論的に等価なプロンプトに対して一貫した応答を提供するのに、多言語の事実モデルでは苦労していることがわかった。
最終層での計算をバイパスし,予測精度と言語間の整合性を向上する線形ショートカット手法を提案する。
論文 参考訳(メタデータ) (2025-04-05T19:43:10Z) - Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。
事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文 参考訳(メタデータ) (2025-04-02T15:09:58Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。