論文の概要: Unveiling Language-Specific Features in Large Language Models via Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2505.05111v2
- Date: Tue, 27 May 2025 03:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.362969
- Title: Unveiling Language-Specific Features in Large Language Models via Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダによる大規模言語モデルにおける言語特性の解明
- Authors: Boyi Deng, Yu Wan, Yidan Zhang, Baosong Yang, Fuli Feng,
- Abstract要約: SAEから得られる特徴の単言語性を評価するための新しい指標を提案する。
これらのSAE特徴を非難することは、LLMの1つの言語における能力を大幅に低下させるだけであり、他の言語はほとんど影響を受けないことが示されている。
我々はこれらSAEから派生した言語固有の特徴を活用してステアリングベクターを強化し,LLMによる言語制御を実現する。
- 参考スコア(独自算出の注目度): 41.1110443501488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The mechanisms behind multilingual capabilities in Large Language Models (LLMs) have been examined using neuron-based or internal-activation-based methods. However, these methods often face challenges such as superposition and layer-wise activation variance, which limit their reliability. Sparse Autoencoders (SAEs) offer a more nuanced analysis by decomposing the activations of LLMs into a sparse linear combination of SAE features. We introduce a novel metric to assess the monolinguality of features obtained from SAEs, discovering that some features are strongly related to specific languages. Additionally, we show that ablating these SAE features only significantly reduces abilities in one language of LLMs, leaving others almost unaffected. Interestingly, we find some languages have multiple synergistic SAE features, and ablating them together yields greater improvement than ablating individually. Moreover, we leverage these SAE-derived language-specific features to enhance steering vectors, achieving control over the language generated by LLMs. The code is publicly available at https://github.com/Aatrox103/multilingual-llm-features.
- Abstract(参考訳): 大規模言語モデル(LLM)における多言語機能の背後にあるメカニズムは、ニューロンベースまたは内部アクティベーションベース手法を用いて検討されている。
しかし、これらの手法は重ね合わせや層単位でのアクティベーションのばらつきといった問題に直面することが多く、信頼性が制限される。
スパースオートエンコーダ(SAE)は、LSMの活性化をSAE特徴の疎線型結合に分解することにより、よりニュアンスな解析を提供する。
本研究では,SAEから得られる特徴の単言語性を評価するための新しい指標を提案する。
さらに、これらのSAE特徴を非難することは、LLMの1つの言語における能力を大幅に低下させ、他の言語はほとんど影響を受けないことが示されている。
興味深いことに、いくつかの言語は複数の相乗的SAE特徴を持ち、それらを一つにまとめることで、個別に分類するよりも改善が得られます。
さらに,これらSAE由来の言語固有の特徴を活用してステアリングベクターを強化し,LLMによる言語制御を実現する。
コードはhttps://github.com/Aatrox103/multilingual-llm-featuresで公開されている。
関連論文リスト
- Causal Language Control in Multilingual Transformers via Sparse Feature Steering [3.790013563494571]
マルチ言語モデルの生成言語を操るために,スパースオートエンコーダの機能を活用できるかどうかを検討する。
我々は、FastText言語分類によって測定された、最大90%の成功で制御された言語シフトを達成する。
解析の結果,言語ステアリングは中間から後期のトランスフォーマー層において最も効果的であることが判明した。
論文 参考訳(メタデータ) (2025-07-17T06:49:16Z) - Sparse Autoencoders Can Capture Language-Specific Concepts Across Diverse Languages [11.19692440351977]
既存の研究はしばしば個々のニューロンに焦点を当てているが、その多意味性は言語固有の単位を分離することが困難である。
本稿では,機能アクティベーション確率に基づくSAE-LAPEを用いて,フィードフォワードネットワーク内の言語固有の特徴を識別する手法を提案する。
これらの機能は、モデルの多言語パフォーマンスと言語出力に影響を与え、fastTextに匹敵するパフォーマンスを持つ言語識別に使用できる。
論文 参考訳(メタデータ) (2025-07-15T12:00:30Z) - The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。
予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。
近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2025-06-11T16:00:54Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Investigating Language-Specific Calibration For Pruning Multilingual Large Language Models [11.421452042888523]
多様な言語,タスク,モデル,および SotA プルーニング技術を用いて,多言語モデルをプルーニングするためのキャリブレーション言語を比較した。
例えば、ターゲット言語を校正することで、効率的に言語モデリング能力を維持することができるが、必ずしも下流タスクに利益をもたらすとは限らない。
論文 参考訳(メタデータ) (2024-08-26T16:29:13Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Unraveling Babel: Exploring Multilingual Activation Patterns of LLMs and Their Applications [24.18102112644796]
本研究では,多言語処理における大言語モデル(LLM)の内部ニューロン活性化パターンについて検討した。
専門家のアクティベーション周波数の差を利用してスパースアクティベーションとプルーニングを誘導する。
本研究は,スパースアクティベーションやモデルプルーニングなどの応用に新たな視点を提供する。
論文 参考訳(メタデータ) (2024-02-26T07:44:56Z) - How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。
本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。