論文の概要: Projecting Assumptions: The Duality Between Sparse Autoencoders and Concept Geometry
- arxiv url: http://arxiv.org/abs/2503.01822v1
- Date: Mon, 03 Mar 2025 18:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:22:54.041100
- Title: Projecting Assumptions: The Duality Between Sparse Autoencoders and Concept Geometry
- Title(参考訳): 投影推定:スパースオートエンコーダと概念幾何学の二重性
- Authors: Sai Sumedh R. Hindupur, Ekdeep Singh Lubana, Thomas Fel, Demba Ba,
- Abstract要約: 両レベル最適化問題に対する解決策として,SAEを再放送する統合フレームワークを導入する。
これらの特性が無視された場合、SAEは概念の回復に失敗することを示す。
我々の発見は、普遍的なSAEの概念に挑戦し、モデル解釈可能性におけるアーキテクチャ固有の選択の必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 11.968306791864034
- License:
- Abstract: Sparse Autoencoders (SAEs) are widely used to interpret neural networks by identifying meaningful concepts from their representations. However, do SAEs truly uncover all concepts a model relies on, or are they inherently biased toward certain kinds of concepts? We introduce a unified framework that recasts SAEs as solutions to a bilevel optimization problem, revealing a fundamental challenge: each SAE imposes structural assumptions about how concepts are encoded in model representations, which in turn shapes what it can and cannot detect. This means different SAEs are not interchangeable -- switching architectures can expose entirely new concepts or obscure existing ones. To systematically probe this effect, we evaluate SAEs across a spectrum of settings: from controlled toy models that isolate key variables, to semi-synthetic experiments on real model activations and finally to large-scale, naturalistic datasets. Across this progression, we examine two fundamental properties that real-world concepts often exhibit: heterogeneity in intrinsic dimensionality (some concepts are inherently low-dimensional, others are not) and nonlinear separability. We show that SAEs fail to recover concepts when these properties are ignored, and we design a new SAE that explicitly incorporates both, enabling the discovery of previously hidden concepts and reinforcing our theoretical insights. Our findings challenge the idea of a universal SAE and underscores the need for architecture-specific choices in model interpretability. Overall, we argue an SAE does not just reveal concepts -- it determines what can be seen at all.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、ニューラルネットワークの表現から意味のある概念を識別することで、ニューラルネットワークの解釈に広く用いられている。
しかし、SAEはモデルが依存するすべての概念を本当に発見するのか、それとも、本質的に特定の概念に偏っているのか?
各SAEは、モデル表現に概念をエンコードする方法に関する構造的仮定を課し、それが検出でき、検出できないものを形作る。
つまり、異なるSAEは交換不可能である。アーキテクチャを切り替えることによって、まったく新しい概念や、未知の既存の概念を公開できる。
この効果をシステマティックに探究するために、キー変数を分離する制御された玩具モデルから、実モデルアクティベーションに関する半合成実験、そして最終的に大規模で自然主義的なデータセットまで、様々な設定でSAEを評価した。
この進歩の中で、実世界の概念がしばしば示す2つの基本的な性質について検討する:内在的次元における異質性(いくつかの概念は本質的に低次元であり、他の概念はそうではない)と非線形分離性である。
これらの特性が無視されたとき、SAEが概念を回復できないことを示すとともに、その両方を明示的に組み込んだ新たなSAEを設計し、以前に隠されていた概念の発見と理論的な洞察の強化を可能にした。
我々の発見は、普遍的なSAEの概念に挑戦し、モデル解釈可能性におけるアーキテクチャ固有の選択の必要性を浮き彫りにしている。
全体としては、SAEは単に概念を明らかにするだけでなく、何が見えるかを決定する、と私たちは主張します。
関連論文リスト
- Archetypal SAE: Adaptive and Stable Dictionary Learning for Concept Extraction in Large Vision Models [16.894375498353092]
スパースオートエンコーダ(SAE)は、機械学習の解釈可能性のための強力なフレームワークとして登場した。
既存のSAEは、類似したデータセットでトレーニングされた同一のモデルは、非常に異なる辞書を生成することができるため、深刻な不安定性を示す。
本稿では、辞書の原子を凸殻に拘束するArchitypal SAEについて述べる。
論文 参考訳(メタデータ) (2025-02-18T14:29:11Z) - Sample-efficient Learning of Concepts with Theoretical Guarantees: from Data to Concepts without Interventions [7.3784937557132855]
概念ベースモデル(CBM)は、ラベルの予測に使用される画像などの高次元データから解釈可能な概念を学習する。
CBMにおける重要な問題は、概念リーク、すなわち学習された概念の急激な情報であり、事実上「間違った」概念を学ぶことにつながる。
本稿では,学習概念の正しさと必要なラベル数に関する理論的保証を提供する枠組みについて述べる。
論文 参考訳(メタデータ) (2025-02-10T15:01:56Z) - Explaining Explainability: Recommendations for Effective Use of Concept Activation Vectors [35.37586279472797]
概念ベクトル活性化(Concept Vector Activations, CAV)は、概念実証者のプローブデータセットを用いて学習される。
CAVの3つの特性として,層間不整合,(2)他の概念との絡み合い,(3)空間依存性について検討する。
これらの特性の存在を検出するためのツールを導入し、各特性がどのように誤解を招くのかを洞察し、その影響を軽減するためのレコメンデーションを提供する。
論文 参考訳(メタデータ) (2024-04-04T17:46:20Z) - Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales [54.78115855552886]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。
大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文 参考訳(メタデータ) (2024-02-23T16:50:07Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - Multi-dimensional concept discovery (MCD): A unifying framework with
completeness guarantees [1.9465727478912072]
本稿では,概念レベルの完全性関係を満たす従来のアプローチの拡張として,多次元概念発見(MCD)を提案する。
より制約のある概念定義に対するMDDの優位性を実証的に実証する。
論文 参考訳(メタデータ) (2023-01-27T18:53:19Z) - Concept Gradient: Concept-based Interpretation Without Linear Assumption [77.96338722483226]
概念活性化ベクトル(Concept Activation Vector, CAV)は、与えられたモデルと概念の潜在表現の間の線形関係を学習することに依存する。
我々は、線形概念関数を超えて概念に基づく解釈を拡張する概念グラディエント(CG)を提案した。
我々は、CGがおもちゃの例と実世界のデータセットの両方でCAVより優れていることを実証した。
論文 参考訳(メタデータ) (2022-08-31T17:06:46Z) - Translational Concept Embedding for Generalized Compositional Zero-shot
Learning [73.60639796305415]
一般合成ゼロショット学習は、ゼロショット方式で属性オブジェクト対の合成概念を学習する手段である。
本稿では,これら2つの課題を統一的なフレームワークで解決するために,翻訳概念の埋め込み(translational concept embedded)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-12-20T21:27:51Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - CURI: A Benchmark for Productive Concept Learning Under Uncertainty [33.83721664338612]
我々は、新しい数ショットメタラーニングベンチマーク、コンポジション推論を不確実性の下で導入する(CURI)。
CURIは、疎結合、生産的一般化、学習操作、変数バインディングなどの抽象的な理解を含む、生産的および体系的な一般化の異なる側面を評価します。
また、モデルに依存しない「構成性ギャップ」を定義し、それぞれの軸に沿って分布外分布を一般化することの難しさを評価する。
論文 参考訳(メタデータ) (2020-10-06T16:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。