論文の概要: How Optimality Structures Sparse Dictionaries: A Theory for Understanding SAE Representations
- arxiv url: http://arxiv.org/abs/2606.02385v1
- Date: Mon, 01 Jun 2026 15:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.393783
- Title: How Optimality Structures Sparse Dictionaries: A Theory for Understanding SAE Representations
- Title(参考訳): スパース辞書の最適構造:SAE表現の理解の理論
- Authors: William Dorrell,
- Abstract要約: スパースオートエンコーダ(SAE)は、神経表現を解釈可能な概念に解析することに成功した。
ここでは、任意の辞書学習最適条件が満たさなければならない性質を単に問う。
これらの制約は、観察されたSAEの挙動を説明するために用いられる。
- 参考スコア(独自算出の注目度): 0.8122270502556375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) have found success parsing neural representations into interpretable concepts, providing a basis for understanding and control. However, what exactly SAEs extract, and, correspondingly, the scientific conclusions we can draw from them, are not obvious. Empirically, the proof is in the pudding: SAEs learn interpretable features. Theoretically, we lack a clear account of what properties a 'concept' must satisfy for an SAE to extract it. There has been extensive identifiability work studying the conditions under which sparse coding recovers ground-truth features; however, these approaches tends to focus on simple data-generating models (e.g. sparse independent features) which poorly approximate the internet-swallowing language-model representations on which SAEs are trained. Here, avoiding data-generating models, we ask simply what properties any dictionary learning optimum must satisfy. Concretely, we extend local optimality analyses (Gribonval & Schnass, 2010) to the nonnegative joint-optimisation problem that vanilla SAEs approximate, and derive constraints relating optimal SAE features to their distributions. We use these constraints to explain a range of observed SAE behaviours - hierarchical splitting & absorption, the structure of residuals, and dense antipodal features - each reflecting how L1+nonnegativity interact with data to structure optimal dictionaries. Finally, we construct a novel large-dictionary convex problem and explore the wide atom-per-datapoint limit. In sum, we hope to tease model assumptions from unexpected observations, letting us learn more from SAEs' successes and provide principles for designing their successors.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、神経表現を解釈可能な概念に解析し、理解と制御の基礎を提供することに成功した。
しかし、SAEが正確に何を抽出し、それに対応して、私たちがそれらから引き出すことができる科学的結論は明らかではない。
SAEは解釈可能な特徴を学ぶ。
理論的には、SAEがそれを抽出するために「概念」が満足しなければならない性質について明確な説明がない。
しかし、これらの手法は、SAEが訓練されるインターネットに制限される言語モデル表現を十分に近似した単純なデータ生成モデル(例えば、疎独立な特徴)に焦点を当てる傾向にある。
ここでは、データ生成モデルを避けるため、任意の辞書学習最適条件が満たすべき特性を単に問う。
具体的には、局所最適性解析(Gribonval & Schnass, 2010)を、バニラSAEが近似する非負の合同最適化問題に拡張し、最適なSAE特徴を分布に関連付ける制約を導出する。
これらの制約は、階層的な分割と吸収、残留物の構造、そして密度の高い反足動物の特徴など、観測されたSAEの挙動を説明するのに使われ、それぞれがL1+非負性度がデータと相互作用して最適な辞書を構成する方法を反映している。
最後に、新しい大次元凸問題を構築し、データポイント当たりの広い原子限界を探索する。
総じて、予想外の観察から仮定をモデル化し、SAEの成功からより深く学び、後継者を設計するための原則を提供したいと思っています。
関連論文リスト
- Learn from your own latents and not from tokens: A sample-complexity theory [53.5821824211418]
本研究では,関連するビューやマスキング領域の潜在表現を予測するために訓練されたネットワークについて検討する。
潜在予測は、対数的要因まで、多くのサンプルを$L$で表すことでこれを達成できることを示す。
これは、H-JEPAのような明示的な積み重ねがほとんど冗長であることを示している。
論文 参考訳(メタデータ) (2026-05-26T22:16:42Z) - Qwen-Scope: Turning Sparse Features into Development Tools for Large Language Models [80.45129499188461]
我々はQwenモデルファミリ上に構築されたスパースオートエンコーダ(SAE)のオープンソーススイートであるQwen-Scopeを紹介する。
SAEはポストホック解析を超越して,4方向のモデル開発のための実用的なインターフェースとして機能することを示す。
論文 参考訳(メタデータ) (2026-05-12T10:01:06Z) - ProtSAE: Disentangling and Interpreting Protein Language Models via Semantically-Guided Sparse Autoencoders [30.219733023958188]
Sparse Autoencoder (SAE) は、大規模言語モデルの機械的解釈可能性のための強力なツールとして登場した。
ProtSAEと呼ばれる意味誘導型SAEを提案する。
ProtSAEは,従来の方法と比較して,生物学的に関連性があり,隠れた特徴を解釈できることがわかった。
論文 参考訳(メタデータ) (2025-08-26T11:20:31Z) - Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality [3.9230690073443166]
近似的特徴アクティベーション(AFA)の定式化に基づく新しいアクティベーション関数 Top-AFA を導入する。
3つの中間層上のSAEをトレーニングして、OpenWebTextデータセットから8000万以上のトークンに対して、GPT2の隠れ埋め込みを再構築することにより、このアプローチの実証的なメリットを実演する。
論文 参考訳(メタデータ) (2025-03-31T16:22:11Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs [0.0]
本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。
スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
論文 参考訳(メタデータ) (2024-10-15T01:38:03Z) - A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders [0.0]
階層的特徴のスパース分解と分割は堅牢ではないことを示す。
具体的には、モノセマンティックな特徴が本来あるべき場所に放たれるのに失敗し、代わりに子供の特徴に"吸収"されることを示す。
論文 参考訳(メタデータ) (2024-09-22T16:11:02Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。