論文の概要: On the Theoretical Understanding of Identifiable Sparse Autoencoders and Beyond
- arxiv url: http://arxiv.org/abs/2506.15963v1
- Date: Thu, 19 Jun 2025 02:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.91045
- Title: On the Theoretical Understanding of Identifiable Sparse Autoencoders and Beyond
- Title(参考訳): 特定可能なスパースオートエンコーダの理論的理解とそれを超えて
- Authors: Jingyi Cui, Qi Zhang, Yifei Wang, Yisen Wang,
- Abstract要約: スパースオートエンコーダ(SAE)は、大規模言語モデル(LLM)によって学習された特徴を解釈する強力なツールとして登場した。
複雑な重畳されたポリセマンティックな特徴を、わずかに活性化されたニューラルネットワークによる特徴再構成によって解釈可能なモノセマンティックな特徴に復元することを目的としている。
SAEの幅広い応用にもかかわらず、SAEがどのような条件下で、重畳された多意味的特徴から基底真理単意味的特徴を完全に回復できるかは不明である。
- 参考スコア(独自算出の注目度): 36.107366496809675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse autoencoders (SAEs) have emerged as a powerful tool for interpreting features learned by large language models (LLMs). It aims to recover complex superposed polysemantic features into interpretable monosemantic ones through feature reconstruction via sparsely activated neural networks. Despite the wide applications of SAEs, it remains unclear under what conditions an SAE can fully recover the ground truth monosemantic features from the superposed polysemantic ones. In this paper, through theoretical analysis, we for the first time propose the necessary and sufficient conditions for identifiable SAEs (SAEs that learn unique and ground truth monosemantic features), including 1) extreme sparsity of the ground truth feature, 2) sparse activation of SAEs, and 3) enough hidden dimensions of SAEs. Moreover, when the identifiable conditions are not fully met, we propose a reweighting strategy to improve the identifiability. Specifically, following the theoretically suggested weight selection principle, we prove that the gap between the loss functions of SAE reconstruction and monosemantic feature reconstruction can be narrowed, so that the reweighted SAEs have better reconstruction of the ground truth monosemantic features than the uniformly weighted ones. In experiments, we validate our theoretical findings and show that our weighted SAE significantly improves feature monosemanticity and interpretability.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は,大規模言語モデル(LLM)によって学習された特徴を解釈する強力なツールとして登場した。
複雑な重畳されたポリセマンティックな特徴を、わずかに活性化されたニューラルネットワークによる特徴再構成によって解釈可能なモノセマンティックな特徴に復元することを目的としている。
SAEの幅広い応用にもかかわらず、SAEがどのような条件下で、重畳された多意味的特徴から基底真理単意味的特徴を完全に回復できるかは不明である。
本稿では,理論解析を通じて,SAE(一意的かつ基底的真理の単意味的特徴を学習するSAE)の同定に必要な条件を初めて提案する。
1) 根拠的真理の特徴の極端に広い。
2)SAEのスパース活性化,及び
3) SAE の隠蔽次元は十分である。
さらに,特定可能な条件が十分に満たされていない場合,識別性を改善するための重み付け戦略を提案する。
具体的には, 理論的に示唆された重み選択原理に従って, SAE再構成の損失関数と単意味的特徴再構成とのギャップを狭めることが証明された。
実験の結果,重み付きSAEは特徴の単意味性と解釈可能性を大幅に改善することが示された。
関連論文リスト
- Dense SAE Latents Are Features, Not Bugs [75.08462524662072]
言語モデル計算において,高密度潜伏剤が機能的役割を担っていることを示す。
位置追跡,コンテキストバインディング,エントロピー制御,文字固有出力信号,パート・オブ・音声,主成分再構成に関連するクラスを同定する。
論文 参考訳(メタデータ) (2025-06-18T17:59:35Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Ensembling Sparse Autoencoders [10.81463830315253]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。
我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。
実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T23:31:21Z) - Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
視覚表現におけるニューロンレベルでの単意味性を評価するための包括的枠組みを提案する。
実験の結果,視覚言語モデルで訓練したSAEは個々のニューロンの単意味性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-03T17:58:35Z) - Rethinking Evaluation of Sparse Autoencoders through the Representation of Polysemous Words [29.09237503747052]
スパースオートエンコーダ(SAE)は、大規模言語モデル(LLM)の解釈性を改善するための有望なツールとして多くの注目を集めている。
本稿では,多文単語に着目した単意味特徴の質を解析するためのSAEの評価スイートを提案する。
論文 参考訳(メタデータ) (2025-01-09T02:54:19Z) - Beyond Interpretability: The Gains of Feature Monosemanticity on Model Robustness [68.69369585600698]
ディープラーニングモデルは多意味性による解釈可能性の欠如に悩まされることが多い。
神経細胞が一貫したセマンティクスと異なるセマンティクスに対応するモノセマンティクスの最近の進歩は、解釈可能性を大幅に改善した。
モノセマンティックな特徴は解釈可能性を高めるだけでなく、モデル性能の具体的な向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-27T18:03:20Z) - A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders [0.0]
階層的特徴のスパース分解と分割は堅牢ではないことを示す。
具体的には、モノセマンティックな特徴が本来あるべき場所に放たれるのに失敗し、代わりに子供の特徴に"吸収"されることを示す。
論文 参考訳(メタデータ) (2024-09-22T16:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。