論文の概要: Unveiling Language-Specific Features in Large Language Models via Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2505.05111v1
- Date: Thu, 08 May 2025 10:24:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.843815
- Title: Unveiling Language-Specific Features in Large Language Models via Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダによる大規模言語モデルにおける言語特性の解明
- Authors: Boyi Deng, Yu Wan, Yidan Zhang, Baosong Yang, Fuli Feng,
- Abstract要約: SAEから得られる特徴の単言語性を評価するための新しい指標を提案する。
これらのSAE特徴を非難することは、LLMの1つの言語における能力を大幅に低下させるだけであり、他の言語はほとんど影響を受けないことが示されている。
我々はこれらSAEから派生した言語固有の特徴を活用してステアリングベクターを強化し,LLMによる言語制御を実現する。
- 参考スコア(独自算出の注目度): 41.1110443501488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The mechanisms behind multilingual capabilities in Large Language Models (LLMs) have been examined using neuron-based or internal-activation-based methods. However, these methods often face challenges such as superposition and layer-wise activation variance, which limit their reliability. Sparse Autoencoders (SAEs) offer a more nuanced analysis by decomposing the activations of LLMs into sparse linear combination of SAE features. We introduce a novel metric to assess the monolinguality of features obtained from SAEs, discovering that some features are strongly related to specific languages. Additionally, we show that ablating these SAE features only significantly reduces abilities in one language of LLMs, leaving others almost unaffected. Interestingly, we find some languages have multiple synergistic SAE features, and ablating them together yields greater improvement than ablating individually. Moreover, we leverage these SAE-derived language-specific features to enhance steering vectors, achieving control over the language generated by LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)における多言語機能の背後にあるメカニズムは、ニューロンベースまたは内部アクティベーションベース手法を用いて検討されている。
しかし、これらの手法は重ね合わせや層単位でのアクティベーションのばらつきといった問題に直面することが多く、信頼性が制限される。
スパースオートエンコーダ(SAE)は、LSMの活性化をSAE特徴のスパース線形結合に分解することにより、よりニュアンスな解析を提供する。
本研究では,SAEから得られる特徴の単言語性を評価するための新しい指標を提案する。
さらに、これらのSAE特徴を非難することは、LLMの1つの言語における能力を大幅に低下させ、他の言語はほとんど影響を受けないことが示されている。
興味深いことに、いくつかの言語は複数の相乗的SAE特徴を持ち、それらを一つにまとめることで、個別に分類するよりも改善が得られます。
さらに,これらSAE由来の言語固有の特徴を活用してステアリングベクターを強化し,LLMによる言語制御を実現する。
関連論文リスト
- Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Investigating Language-Specific Calibration For Pruning Multilingual Large Language Models [11.421452042888523]
多様な言語,タスク,モデル,および SotA プルーニング技術を用いて,多言語モデルをプルーニングするためのキャリブレーション言語を比較した。
例えば、ターゲット言語を校正することで、効率的に言語モデリング能力を維持することができるが、必ずしも下流タスクに利益をもたらすとは限らない。
論文 参考訳(メタデータ) (2024-08-26T16:29:13Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Unraveling Babel: Exploring Multilingual Activation Patterns of LLMs and Their Applications [24.18102112644796]
本研究では,多言語処理における大言語モデル(LLM)の内部ニューロン活性化パターンについて検討した。
専門家のアクティベーション周波数の差を利用してスパースアクティベーションとプルーニングを誘導する。
本研究は,スパースアクティベーションやモデルプルーニングなどの応用に新たな視点を提供する。
論文 参考訳(メタデータ) (2024-02-26T07:44:56Z) - How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。
本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。