論文の概要: AbsTopK: Rethinking Sparse Autoencoders For Bidirectional Features
- arxiv url: http://arxiv.org/abs/2510.00404v2
- Date: Thu, 02 Oct 2025 17:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.322552
- Title: AbsTopK: Rethinking Sparse Autoencoders For Bidirectional Features
- Title(参考訳): AbsTopK:双方向機能のためのスパースオートエンコーダを再考
- Authors: Xudong Zhu, Mohammad Mahdi Khalili, Zhihui Zhu,
- Abstract要約: スパースオートエンコーダ(SAE)は,大規模言語モデルの解釈可能性向上のための強力な技術として登場した。
スパース符号の近位勾配法をアンロールすることで,そのような枠組みを導入する。
シングルステップ更新は、ReLU、JumpReLU、TopKを含む一般的なSAEの変種を自然に回復することを示す。
- 参考スコア(独自算出の注目度): 19.58274892471746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) have emerged as powerful techniques for interpretability of large language models (LLMs), aiming to decompose hidden states into meaningful semantic features. While several SAE variants have been proposed, there remains no principled framework to derive SAEs from the original dictionary learning formulation. In this work, we introduce such a framework by unrolling the proximal gradient method for sparse coding. We show that a single-step update naturally recovers common SAE variants, including ReLU, JumpReLU, and TopK. Through this lens, we reveal a fundamental limitation of existing SAEs: their sparsity-inducing regularizers enforce non-negativity, preventing a single feature from representing bidirectional concepts (e.g., male vs. female). This structural constraint fragments semantic axes into separate, redundant features, limiting representational completeness. To address this issue, we propose AbsTopK SAE, a new variant derived from the $\ell_0$ sparsity constraint that applies hard thresholding over the largest-magnitude activations. By preserving both positive and negative activations, AbsTopK uncovers richer, bidirectional conceptual representations. Comprehensive experiments across four LLMs and seven probing and steering tasks show that AbsTopK improves reconstruction fidelity, enhances interpretability, and enables single features to encode contrasting concepts. Remarkably, AbsTopK matches or even surpasses the Difference-in-Mean method, a supervised approach that requires labeled data for each concept and has been shown in prior work to outperform SAEs.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、隠れた状態を意味のある意味的特徴に分解することを目的とした、大規模言語モデル(LLM)の解釈可能性のための強力な技術として登場した。
いくつかのSAE変種が提案されているが、元々の辞書学習の定式化からSAEを導出するための原則的な枠組みは残っていない。
本研究では,スパース符号の近位勾配法をアンロールすることで,そのような枠組みを導入する。
シングルステップ更新は、ReLU、JumpReLU、TopKを含む一般的なSAEの変種を自然に回復することを示す。
このレンズを通して、既存のSAEの基本的な制限を明らかにする: 疎性誘導正則化器は非負性性を強制し、1つの特徴が双方向の概念(例えば、男性と女性)を表現するのを防ぐ。
この構造的制約は意味的軸を分離された冗長な特徴に分割し、表現完全性を制限する。
この問題に対処するために、最大の磁気アクティベーションに対してハードしきい値を適用する$\ell_0$スペーシティ制約から派生した新しい変種であるAbsTopK SAEを提案する。
AbsTopKは、正と負の両方のアクティベーションを保存することにより、よりリッチで双方向な概念表現を明らかにする。
4つのLLMと7つの探索および操舵タスクにわたる総合的な実験により、AbsTopKは再構成の忠実性を改善し、解釈可能性を高め、コントラストの概念をコード化できるようにする。
注目すべきは、AbsTopKは、各概念にラベル付きデータを必要とする教師付きアプローチである差分-in-Meanメソッドにマッチするか、あるいは超えていることだ。
関連論文リスト
- Analysis of Variational Sparse Autoencoders [1.675385127117872]
SAEアーキテクチャに変分手法を組み込むことで,特徴構造や解釈可能性が改善されるかどうかを検討する。
本稿では,変分スパースオートエンコーダ(vSAE)を導入し,決定論的ReLUゲーティングを学習したガウス後部からのサンプリングに置き換える。
以上の結果から,SAEに対する変分法の適用は,機能的構造や解釈可能性の向上には至らないことが示唆された。
論文 参考訳(メタデータ) (2025-09-26T23:09:56Z) - What Makes You Unique? Attribute Prompt Composition for Object Re-Identification [70.67907354506278]
Object Re-IDentificationは、重複しないカメラビューで個人を認識することを目的としている。
単一ドメインモデルはドメイン固有の機能に過度に適合する傾向がありますが、クロスドメインモデルは多種多様な正規化戦略に依存します。
本稿では,テキストのセマンティクスを利用して識別と一般化を協調的に強化する属性プロンプト合成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T07:03:08Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - Evaluating Sparse Autoencoders for Monosemantic Representation [7.46972338257749]
大きな言語モデルを解釈する鍵となる障壁は多意味性(polysemanticity)であり、ニューロンは複数の無関係な概念を活性化する。
スパースオートエンコーダ(SAE)は、高密度なアクティベーションをよりスパースで解釈可能な特徴に変換することでこの問題を軽減するために提案されている。
本稿では,単意味性に関する基礎モデルに対して,SAEを初めて体系的に評価する。
論文 参考訳(メタデータ) (2025-08-20T22:08:01Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Ensembling Sparse Autoencoders [10.81463830315253]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。
我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。
実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T23:31:21Z) - Attribute-formed Class-specific Concept Space: Endowing Language Bottleneck Model with Better Interpretability and Scalability [54.420663939897686]
本稿では,解釈可能な画像認識を実現するために,Attribute-formed Language Bottleneck Model (ALBM)を提案する。
ALBMは属性形式クラス固有の空間において概念を整理する。
解釈性をさらに向上するため,細粒度属性の視覚的特徴を抽出するVAPL(Visual Attribute Prompt Learning)を提案する。
論文 参考訳(メタデータ) (2025-03-26T07:59:04Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Interpreting CLIP with Hierarchical Sparse Autoencoders [8.692675181549117]
サエマトリオシュカ(MSAE)は複数の粒度の階層的表現を同時に学習する。
MSAEは、CLIPの再構築品質とスパーシリティの間に新しい最先端のフロンティアを確立する。
論文 参考訳(メタデータ) (2025-02-27T22:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。