論文の概要: Causal Language Control in Multilingual Transformers via Sparse Feature Steering
- arxiv url: http://arxiv.org/abs/2507.13410v1
- Date: Thu, 17 Jul 2025 06:49:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.084224
- Title: Causal Language Control in Multilingual Transformers via Sparse Feature Steering
- Title(参考訳): スパース特徴ステアリングによる多言語変換器の因果言語制御
- Authors: Cheng-Ting Chou, George Liu, Jessica Sun, Cole Blondin, Kevin Zhu, Vasu Sharma, Sean O'Brien,
- Abstract要約: マルチ言語モデルの生成言語を操るために,スパースオートエンコーダの機能を活用できるかどうかを検討する。
我々は、FastText言語分類によって測定された、最大90%の成功で制御された言語シフトを達成する。
解析の結果,言語ステアリングは中間から後期のトランスフォーマー層において最も効果的であることが判明した。
- 参考スコア(独自算出の注目度): 3.790013563494571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deterministically controlling the target generation language of large multilingual language models (LLMs) remains a fundamental challenge, particularly in zero-shot settings where neither explicit language prompts nor fine-tuning are available. In this work, we investigate whether sparse autoencoder (SAE) features, previously shown to correlate with interpretable model behaviors, can be leveraged to steer the generated language of LLMs during inference. Leveraging pretrained SAEs on the residual streams of Gemma-2B and Gemma-9B, we identify features whose activations differ most significantly between English and four target languages: Chinese, Japanese, Spanish, and French. By modifying just a single SAE feature at one transformer layer, we achieve controlled language shifts with up to 90\% success, as measured by FastText language classification, while preserving semantic fidelity according to LaBSE (Language-Agnostic BERT Sentence Embedding) similarity. Our analysis reveals that language steering is most effective in mid-to-late transformer layers and is amplified by specific attention heads disproportionately associated with language-sensitive SAE features. These results demonstrate the promise of sparse feature steering as a lightweight and interpretable mechanism for controllable multilingual generation.
- Abstract(参考訳): 大規模多言語言語モデル(LLM)のターゲット言語を決定論的に制御することは、特に明示的な言語プロンプトも微調整もできないゼロショット設定において、根本的な課題である。
本研究では,従来の解釈可能なモデル挙動と相関して示されるスパースオートエンコーダ(SAE)の機能を利用して,推論中のLLMの生成言語を操ることができるかを検討する。
Gemma-2B と Gemma-9B の残流に事前学習したSAEを用いて,中国語,日本語,スペイン語,フランス語の4言語でアクティベーションが著しく異なる特徴を同定した。
1つのトランス層で1つのSAE機能だけを変更することで、LaBSE(Language-Agnostic BERT Sentence Embedding)の類似性に従って意味的忠実性を保持しながら、FastText言語分類によって測定された最大90%の成功率で制御された言語シフトを達成する。
解析の結果,言語ステアリングは中~後期のトランスフォーマー層において最も効果的であり,言語に敏感なSAE特徴と相反する特定の注意力によって増幅されていることが明らかとなった。
これらの結果は、制御可能な多言語生成のための軽量かつ解釈可能なメカニズムとしてスパース機能ステアリングが期待できることを示す。
関連論文リスト
- Sparse Autoencoders Can Capture Language-Specific Concepts Across Diverse Languages [11.19692440351977]
本稿では,機能アクティベーション確率に基づくSAE-LAPEを用いて,フィードフォワードネットワーク内の言語固有の特徴を識別する手法を提案する。
このような特徴の多くは、主にモデルの中間層から最終層に現れ、解釈可能である。
これらの機能は、モデルの多言語パフォーマンスと言語出力に影響を与え、fastTextに匹敵するパフォーマンスを持つ言語識別に使用できる。
論文 参考訳(メタデータ) (2025-07-15T12:00:30Z) - Unveiling Language-Specific Features in Large Language Models via Sparse Autoencoders [41.1110443501488]
SAEから得られる特徴の単言語性を評価するための新しい指標を提案する。
これらのSAE特徴を非難することは、LLMの1つの言語における能力を大幅に低下させるだけであり、他の言語はほとんど影響を受けないことが示されている。
我々はこれらSAEから派生した言語固有の特徴を活用してステアリングベクターを強化し,LLMによる言語制御を実現する。
論文 参考訳(メタデータ) (2025-05-08T10:24:44Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。