論文の概要: Do Sparse Autoencoders Capture Concept Manifolds?
- arxiv url: http://arxiv.org/abs/2604.28119v1
- Date: Thu, 30 Apr 2026 17:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.212893
- Title: Do Sparse Autoencoders Capture Concept Manifolds?
- Title(参考訳): スパースオートエンコーダは概念マニフォールドをキャプチャするか?
- Authors: Usha Bhalla, Thomas Fel, Can Rager, Sheridan Feucht, Tal Haklay, Daniel Wurgaft, Siddharth Boppana, Matthew Kowal, Vasudev Shyam, Jack Merullo, Atticus Geiger, Ekdeep Singh Lubana,
- Abstract要約: スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現から解釈可能な特徴を抽出するために広く用いられている。
SAE は2つの基本的に異なる方法で多様体構造をキャプチャできることを示す。
この結果から, 将来の表現学習手法は, 個々の方向だけでなく, 幾何学的対象を解釈可能性の基本単位として扱うべきであることが示唆された。
- 参考スコア(独自算出の注目度): 32.875040341187436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) are widely used to extract interpretable features from neural network representations, often under the implicit assumption that concepts correspond to independent linear directions. However, a growing body of evidence suggests that many concepts are instead organized along low-dimensional manifolds encoding continuous geometric relationships. This raises three basic questions: what does it mean for an SAE to capture a manifold, when do existing SAE architectures do so, and how? We develop a theoretical framework that answers these questions and show that SAEs can capture manifolds in two fundamentally different ways: globally, by allocating a compact group of atoms whose linear span contains the entire manifold, or locally, by distributing it across features that each selectively tile a restricted region of the underlying geometry. Empirically, we find that SAEs suboptimally recover continuous structures, mixing the global subspace and local tiling solutions in a fragmented regime we call dilution. This explains why manifold structure is rarely visible at the level of individual concepts and motivates post-hoc unsupervised discovery methods that search for coherent groups of atoms rather than isolated directions. More broadly, our results suggest that future representation learning methods should treat geometric objects, not just individual directions, as the basic units of interpretability.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、しばしば概念が独立線型方向に対応するという暗黙の仮定の下で、ニューラルネットワーク表現から解釈可能な特徴を抽出するために広く用いられている。
しかし、証拠の増大は、多くの概念が連続的な幾何学的関係をコードする低次元多様体に沿って構成されていることを示唆している。
これは3つの基本的な疑問を提起する: SAEが多様体をキャプチャすることの意味は何か、既存のSAEアーキテクチャがそれをどのように行うのか?
線形スパンが多様体全体を含むコンパクトな原子群を割当することで、あるいは局所的に、基底幾何学の制限された領域を選択的にタイルする特徴に分散することにより、SAEが多様体を2つの根本的に異なる方法で捉えることができることを示す理論的枠組みを開発する。
経験的に、SAEsは、希釈と呼ばれる断片化された状態において、大域的な部分空間と局所的なティアリング解を混合して、連続構造を最適に回復する。
このことは、多様体構造が個々の概念のレベルではめったに見えず、孤立方向ではなく原子のコヒーレントな群を探索するポストホックな教師なし発見法を動機付けている理由を説明する。
より広範に、今後の表現学習法は、個々の方向だけでなく幾何学的対象を解釈可能性の基本単位として扱うべきであることを示唆している。
関連論文リスト
- A Geometric Unification of Concept Learning with Concept Cones [58.70836885177496]
解釈可能性の2つの伝統は、並べて進化してきたが、互いに話すことはめったにない:概念ボトルネックモデル(CBM)とスパースオートエンコーダ(SAE)。
両パラダイムが同じ幾何学的構造をインスタンス化することを示す。
CBMは人間の定義した参照ジオメトリを提供するが、SAEは学習した円錐がCBMをどの程度よく近似するか、あるいは包含しているかによって評価することができる。
論文 参考訳(メタデータ) (2025-12-08T09:51:46Z) - GeoGNN: Quantifying and Mitigating Semantic Drift in Text-Attributed Graphs [59.61242815508687]
テキスト分散グラフ(TAG)上のグラフニューラルネットワーク(GNN)は、事前訓練された言語モデル(PLM)を使用してノードテキストを符号化し、これらの埋め込みを線形近傍アグリゲーションを通じて伝播する。
本研究は,意味的ドリフトの度合いを計測する局所PCAベースの計量を導入し,異なる凝集機構が多様体構造にどのように影響するかを解析するための最初の定量的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-12T06:48:43Z) - Multiview Manifold Evidential Fusion for PolSAR Image Classification [51.41332458376411]
我々は,PolSAR多様体学習とエビデンス融合を統合アーキテクチャに統合する新しいフレームワークを提案する。
実世界の3つのPolSARデータセットの実験により、提案手法は、精度、堅牢性、解釈可能性において、既存のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-10-13T09:05:51Z) - Shape Happens: Automatic Feature Manifold Discovery in LLMs via Supervised Multi-Dimensional Scaling [43.70541744169649]
特徴多様体を自動的に検出するモデルに依存しない手法であるSupervised Multi-dimensional Scaling (SMDS)を導入する。
異なる特徴が円、線、クラスターなどの様々な幾何学構造を形成することが分かる。
本研究は,LMが構造表現を符号化し変換するエンティティベースの推論モデルをサポートする特徴多様体の機能的役割について考察した。
論文 参考訳(メタデータ) (2025-10-01T15:30:47Z) - Projecting Assumptions: The Duality Between Sparse Autoencoders and Concept Geometry [11.968306791864034]
両レベル最適化問題に対する解決策として,SAEを再放送する統合フレームワークを導入する。
これらの特性が無視された場合、SAEは概念の回復に失敗することを示す。
我々の発見は、普遍的なSAEの概念に挑戦し、モデル解釈可能性におけるアーキテクチャ固有の選択の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-03-03T18:47:40Z) - What is Intelligence? A Cycle Closure Perspective [6.0044467881527614]
我々は、トポロジカル閉包法に根ざした構造力学的説明について論じる。
textbfMemory-Amortized Inference (MAI) はSbS,$rightarrow$,CCUPを実装する計算機構であることを示す。
論文 参考訳(メタデータ) (2024-04-08T13:06:23Z) - Supervised Manifold Learning via Random Forest Geometry-Preserving
Proximities [0.0]
クラス条件付き多様体学習手法の弱点を定量的かつ視覚的に示す。
本稿では,ランダムな森の近さをデータジオメトリ保存した変種を用いて,教師付き次元減少のためのカーネルの代替選択を提案する。
論文 参考訳(メタデータ) (2023-07-03T14:55:11Z) - What is Memory? A Homological Perspective [6.0044467881527614]
メモリのデルタホモロジーモデルを導入し、サイクル閉鎖からリコール、学習、予測を発生させる。
ディラックのようなメモリトレースは、スパースで既約の誘引子を表す非自明なホモロジージェネレータに対応する。
我々は、このメカニズムを、高エントロピー文脈変数と低エントロピー内容変数との結合不確実性を最小化する、コンテキスト-コンテンツ不確実性原理(CCUP)によって定式化する。
論文 参考訳(メタデータ) (2023-03-07T19:47:01Z) - A Unifying and Canonical Description of Measure-Preserving Diffusions [60.59592461429012]
ユークリッド空間における測度保存拡散の完全なレシピは、最近、いくつかのMCMCアルゴリズムを単一のフレームワークに統合した。
我々は、この構成を任意の多様体に改善し一般化する幾何学理論を開発する。
論文 参考訳(メタデータ) (2021-05-06T17:36:55Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z) - Disentangling by Subspace Diffusion [72.1895236605335]
データ多様体の完全教師なし分解は、多様体の真の計量が知られている場合、可能であることを示す。
我々の研究は、教師なしメートル法学習が可能であるかどうかという問題を減らし、表現学習の幾何学的性質に関する統一的な洞察を提供する。
論文 参考訳(メタデータ) (2020-06-23T13:33:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。