論文の概要: Ablating Archetypes: The Stability of Archetypal SAEs is an Artifact of Initialization and Metric Design
- arxiv url: http://arxiv.org/abs/2606.02061v1
- Date: Mon, 01 Jun 2026 10:50:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.875897
- Title: Ablating Archetypes: The Stability of Archetypal SAEs is an Artifact of Initialization and Metric Design
- Title(参考訳): Ablating Archetypes: The stability of Archetypal SAEs is a Artifact of Initialization and Metric Design
- Authors: Michał Brzozowski, Neo Christopher Chung,
- Abstract要約: スパースオートエンコーダ (SAEs) を用いた辞書学習における安定性の主張には, 軌跡診断と改善が必要であることを示す。
我々の研究は、より大きな辞書学習の伝統の中でSAEを研究することの価値を支持する。
- 参考スコア(独自算出の注目度): 2.406359246841227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dictionary learning with sparse autoencoders (SAEs) produces overcomplete bases from neural network activations that are often interpretable and reduces polysemanticity. However, features from SAEs vary substantially across random seeds -- a problem known as instability. Archetypal SAEs (Fel et al., 2025) were proposed as a general dictionary-learning intervention for more reliable concept extraction, and report more stable dictionaries at the end of training. We demonstrate that the stability claimed by archetypal SAEs is a result of setting identical initialization across multiple runs. Through our analyses, we attempt to clarify two distinct notions in mechanistic interpretability that may be ambiguously used: stability is agreement between two independently trained models, whereas stabilization is the convergence of independently initialized runs toward a common solution. This distinction is critical for mechanistic interpretability of natural language processing (NLP), where feature stability is increasingly used as evidence that SAE features are reusable units of analysis. Experiments from archetypal SAEs share a deterministic k-means decoder initialization, setting inter-run dictionary distance to zero before training begins. When this initialization is removed, the archetypal constraint provides no stabilization advantage in our setting. We further identify a preprocessing-dependent cosine geometry issue that complicates interpretation of endpoint stability metrics. Overall, our study supports the value of studying SAEs within the larger dictionary-learning tradition while showing that stability claims require trajectory diagnostics and initialization ablations.
- Abstract(参考訳): スパースオートエンコーダ(SAE)を用いた辞書学習は、しばしば解釈可能なニューラルネットワークの活性化からオーバーコンプリートベースを生成し、多意味性を低下させる。
しかし、SAEの特徴はランダムな種によって大きく異なり、不安定(instability)と呼ばれる。
SAE(Fel et al , 2025)は、より信頼性の高い概念抽出のための一般的な辞書学習の介入として提案され、訓練終了後により安定した辞書を報告した。
SAEが主張する安定性は,複数のランで同一の初期化を設定する結果であることを示す。
安定性は2つの独立的に訓練されたモデル間の一致であり、安定化は独立に初期化された実行の共通解への収束である。
この区別は自然言語処理(NLP)の機械的解釈可能性において重要である。
アーキティパルSAEによる実験は、トレーニング開始前に実行間辞書距離をゼロに設定し、決定論的k平均デコーダの初期化を共有する。
この初期化が除去された場合、根尖拘束は我々の設定において安定化の優位性を与えない。
さらに、エンドポイント安定性メトリクスの解釈を複雑にする前処理依存のコサイン幾何問題を特定する。
本研究は,より大規模な辞書学習の伝統の中でSAEを研究することの価値を裏付けるとともに,安定性の主張には軌道診断と初期化の短縮が必要であることを示す。
関連論文リスト
- Zeroth-Order Optimization at the Edge of Stability [59.54782674222443]
ゼロ階数(ZO)系の(平均二乗の)線形安定性を捉える明示的なステップサイズ条件を提供する。
以上の結果から,ZO法に特有の暗黙的な正則化効果が示され,大きなステップサイズが主にヘッセントレースを正則化することがわかった。
論文 参考訳(メタデータ) (2026-04-16T06:23:18Z) - A Function-Space Stability Boundary for Generalization in Interpolating Learning Systems [0.0]
我々は,関数空間軌道としてのトレーニングをモデル化し,この軌道に沿った単一サンプル摂動に対する感度を測定する。
小さい証明は安定性に基づく一般化を暗示するが、小さなリスクを持つ補間体制が存在することも証明する。
論文 参考訳(メタデータ) (2026-02-03T13:31:12Z) - Priors in Time: Missing Inductive Biases for Language Model Interpretability [58.07412640266836]
スパースオートエンコーダは、時間とともに概念の独立を前提としており、定常性を暗示している。
本稿では,時間的帰納バイアスを持つ新たな解釈可能性目標である時間的特徴分析を導入し,その表現を2つの部分に分解する。
私たちの結果は、堅牢な解釈可能性ツールの設計において、データにマッチする帰納的バイアスの必要性を浮き彫りにしています。
論文 参考訳(メタデータ) (2025-11-03T18:43:48Z) - Analysis of Variational Sparse Autoencoders [1.675385127117872]
SAEアーキテクチャに変分手法を組み込むことで,特徴構造や解釈可能性が改善されるかどうかを検討する。
本稿では,変分スパースオートエンコーダ(vSAE)を導入し,決定論的ReLUゲーティングを学習したガウス後部からのサンプリングに置き換える。
以上の結果から,SAEに対する変分法の適用は,機能的構造や解釈可能性の向上には至らないことが示唆された。
論文 参考訳(メタデータ) (2025-09-26T23:09:56Z) - Archetypal SAE: Adaptive and Stable Dictionary Learning for Concept Extraction in Large Vision Models [16.894375498353092]
スパースオートエンコーダ(SAE)は、機械学習の解釈可能性のための強力なフレームワークとして登場した。
既存のSAEは、類似したデータセットでトレーニングされた同一のモデルは、非常に異なる辞書を生成することができるため、深刻な不安定性を示す。
本稿では、辞書の原子を凸殻に拘束するArchitypal SAEについて述べる。
論文 参考訳(メタデータ) (2025-02-18T14:29:11Z) - Semantic Self-adaptation: Enhancing Generalization with a Single Sample [45.111358665370524]
セマンティックセグメンテーションのための自己適応型アプローチを提案する。
整合正則化を用いて畳み込み層のパラメータを入力画像に微調整する。
実験により, 自己適応は訓練時のモデル正規化の確立した実践を補完する可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-10T12:29:01Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - The Curse of Performance Instability in Analysis Datasets: Consequences,
Source, and Suggestions [93.62888099134028]
自然言語推論(NLI)および読み込み(RC)解析/ストレスセットにおける最先端モデルの性能は極めて不安定であることがわかった。
このことは、(1)不安定さがこれらの分析セットに基づいて引き出された結論の信頼性にどのように影響するかという3つの疑問を提起する。
不安定の原因に関する理論的説明と実証的証拠の両方を提示する。
論文 参考訳(メタデータ) (2020-04-28T15:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。