論文の概要: On the Theoretical Foundation of Sparse Dictionary Learning in Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2512.05534v1
- Date: Fri, 05 Dec 2025 08:47:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.967636
- Title: On the Theoretical Foundation of Sparse Dictionary Learning in Mechanistic Interpretability
- Title(参考訳): 機械的解釈可能性におけるスパース辞書学習の理論的基礎について
- Authors: Yiming Tang, Harshvardhan Saini, Yizhen Liao, Dianbo Liu,
- Abstract要約: スパース辞書学習(SDL)を1つの統一最適化問題として考察する。
われわれは, 特徴吸収, 死んだニューロン, ニューロン再サンプリング技術など, 経験的に観察されたいくつかの現象について, 初めて理論的に説明を行った。
- 参考スコア(独自算出の注目度): 5.009082958329585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI models achieve remarkable capabilities across diverse domains, understanding what representations they learn and how they process information has become increasingly important for both scientific progress and trustworthy deployment. Recent works in mechanistic interpretability have shown that neural networks represent meaningful concepts as directions in their representation spaces and often encode many concepts in superposition. Various sparse dictionary learning (SDL) methods, including sparse autoencoders, transcoders, and crosscoders, address this by training auxiliary models with sparsity constraints to disentangle these superposed concepts into interpretable features. These methods have demonstrated remarkable empirical success but have limited theoretical understanding. Existing theoretical work is limited to sparse autoencoders with tied-weight constraints, leaving the broader family of SDL methods without formal grounding. In this work, we develop the first unified theoretical framework considering SDL as one unified optimization problem. We demonstrate how diverse methods instantiate the theoretical framwork and provide rigorous analysis on the optimization landscape. We provide the first theoretical explanations for some empirically observed phenomena, including feature absorption, dead neurons, and the neuron resampling technique. We further design controlled experiments to validate our theoretical results.
- Abstract(参考訳): AIモデルがさまざまな領域にまたがる卓越した能力を達成するにつれ、科学的な進歩と信頼できるデプロイメントにおいて、彼らがどのような表現を学び、どのように情報を処理するかを理解することがますます重要になっている。
機械論的解釈可能性に関する最近の研究は、ニューラルネットワークが表現空間の方向として有意義な概念を表現し、重ね合わせにおいて多くの概念を符号化していることを示している。
スパースオートエンコーダ、トランスコーダ、クロスコーダを含む様々なスパース辞書学習(SDL)手法は、これらの重畳された概念を解釈可能な特徴に分解するために、スパース制約付き補助モデルを訓練することによってこの問題に対処する。
これらの手法は顕著な経験的成功を示しているが、理論的な理解は限られている。
既存の理論的な研究は、厳密な制約付きスパースオートエンコーダに限られており、より広範なSDL手法のファミリーは、形式的な根拠を持たないままである。
本研究では,SDLを統一最適化問題として考察した最初の統一的理論フレームワークを開発する。
多様な手法がいかに理論的なフラムワークをインスタンス化し、最適化のランドスケープを厳密に分析するかを実証する。
われわれは, 特徴吸収, 死んだニューロン, ニューロン再サンプリング技術など, 経験的に観察されたいくつかの現象について, 初めて理論的に説明を行った。
我々は、理論結果を検証するために制御された実験をさらに設計する。
関連論文リスト
- How LLMs Learn to Reason: A Complex Network Perspective [14.638878448692493]
Reinforcement Learning from Verifiable Rewards による大規模言語モデルのトレーニングは、突飛な振る舞いのセットを示している。
この現象は単一統一理論を用いて説明できると考えられる。
私たちの研究は、将来のAIシステムの創発的な推論能力をエンジニアリングするための新しい物理的直感を提供します。
論文 参考訳(メタデータ) (2025-09-28T04:10:37Z) - Large Language Models as Computable Approximations to Solomonoff Induction [11.811838796672369]
我々は,大規模言語モデル (LLM) とアルゴリズム情報理論 (AIT) の間の最初の公式な接続を確立する。
我々はAITを活用し、文脈内学習、少数ショット学習、スケーリング法則の統一的な理論的説明を提供する。
我々の枠組みは理論的基礎と実践的LLM行動のギャップを埋め、将来のモデル開発に説明力と実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-21T17:35:08Z) - Sample-efficient Learning of Concepts with Theoretical Guarantees: from Data to Concepts without Interventions [13.877511370053794]
概念ボトルネックモデル(CBM)は、高次元データから解釈可能な概念を学ぶことでこれらの課題に対処する。
本稿では,学習概念の正しさと必要なラベル数に関する理論的保証を提供する枠組みについて述べる。
合成および画像のベンチマークにおいて、我々のフレームワークを評価し、学習された概念が不純物が少なく、しばしば他のCBMよりも正確であることを示す。
論文 参考訳(メタデータ) (2025-02-10T15:01:56Z) - Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Interpretable Neural-Symbolic Concept Reasoning [7.1904050674791185]
概念に基づくモデルは、人間の理解可能な概念のセットに基づいてタスクを学習することでこの問題に対処することを目的としている。
本稿では,概念埋め込みに基づく最初の解釈可能な概念ベースモデルであるDeep Concept Reasoner (DCR)を提案する。
論文 参考訳(メタデータ) (2023-04-27T09:58:15Z) - From Attribution Maps to Human-Understandable Explanations through
Concept Relevance Propagation [16.783836191022445]
eXplainable Artificial Intelligence(XAI)の分野は、今日の強力だが不透明なディープラーニングモデルに透明性をもたらすことを目指している。
局所的なXAI手法は属性マップの形で個々の予測を説明するが、グローバルな説明手法はモデルが一般的にエンコードするために学んだ概念を視覚化する。
論文 参考訳(メタデータ) (2022-06-07T12:05:58Z) - A Chain Graph Interpretation of Real-World Neural Networks [58.78692706974121]
本稿では,NNを連鎖グラフ(CG)、フィードフォワードを近似推論手法として識別する別の解釈を提案する。
CG解釈は、確率的グラフィカルモデルのリッチな理論的枠組みの中で、各NNコンポーネントの性質を規定する。
我々は,CG解釈が様々なNN技術に対する新しい理論的支援と洞察を提供することを示す具体例を実例で示す。
論文 参考訳(メタデータ) (2020-06-30T14:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。