論文の概要: From Flat to Hierarchical: Extracting Sparse Representations with Matching Pursuit
- arxiv url: http://arxiv.org/abs/2506.03093v1
- Date: Tue, 03 Jun 2025 17:24:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.887235
- Title: From Flat to Hierarchical: Extracting Sparse Representations with Matching Pursuit
- Title(参考訳): フラットから階層へ:マッチングによるスパース表現の抽出
- Authors: Valérie Costa, Thomas Fel, Ekdeep Singh Lubana, Bahareh Tolooshams, Demba Ba,
- Abstract要約: 我々は,MP-SAEがエンコーダを一連の残差誘導ステップにアンロールすることで,階層的かつ非線形にアクセス可能な特徴を捉えることができることを示す。
また、MP-SAEのシーケンシャルエンコーダ原理は、推論時に適応空間の利点を付加することを示した。
- 参考スコア(独自算出の注目度): 16.996218963146788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the hypothesis that neural network representations encode abstract, interpretable features as linearly accessible, approximately orthogonal directions, sparse autoencoders (SAEs) have become a popular tool in interpretability. However, recent work has demonstrated phenomenology of model representations that lies outside the scope of this hypothesis, showing signatures of hierarchical, nonlinear, and multi-dimensional features. This raises the question: do SAEs represent features that possess structure at odds with their motivating hypothesis? If not, does avoiding this mismatch help identify said features and gain further insights into neural network representations? To answer these questions, we take a construction-based approach and re-contextualize the popular matching pursuits (MP) algorithm from sparse coding to design MP-SAE -- an SAE that unrolls its encoder into a sequence of residual-guided steps, allowing it to capture hierarchical and nonlinearly accessible features. Comparing this architecture with existing SAEs on a mixture of synthetic and natural data settings, we show: (i) hierarchical concepts induce conditionally orthogonal features, which existing SAEs are unable to faithfully capture, and (ii) the nonlinear encoding step of MP-SAE recovers highly meaningful features, helping us unravel shared structure in the seemingly dichotomous representation spaces of different modalities in a vision-language model, hence demonstrating the assumption that useful features are solely linearly accessible is insufficient. We also show that the sequential encoder principle of MP-SAE affords an additional benefit of adaptive sparsity at inference time, which may be of independent interest. Overall, we argue our results provide credence to the idea that interpretability should begin with the phenomenology of representations, with methods emerging from assumptions that fit it.
- Abstract(参考訳): ニューラルネットワーク表現が線形アクセス可能なほぼ直交方向として解釈可能な特徴を符号化する仮説により、スパースオートエンコーダ(SAE)が解釈可能性において一般的なツールとなった。
しかし、最近の研究は、この仮説の範囲外にあるモデル表現の現象論を示し、階層的、非線形、多次元的な特徴のシグネチャを示している。
SAEは、モチベーション仮説に反する構造を持つ特徴を表していますか?
もしそうでなければ、このミスマッチを避けることは、上記の特徴を特定し、ニューラルネットワーク表現に関するさらなる洞察を得るのに役立つだろうか?
これらの疑問に答えるために、我々は構築ベースのアプローチを採用し、一般的なマッチング追従アルゴリズム(MP)をスパースコーディングからMP-SAEの設計へと再コンテキスト化し、エンコーダを残高誘導の一連のステップにアンロールし、階層的かつ非線形にアクセス可能な特徴をキャプチャできるようにする。
このアーキテクチャを、合成データと自然データとを混合した既存のSAEと比較すると、以下のことが分かる。
(i)階層的概念は、既存のSAEが忠実に捕獲できない条件付き直交的特徴を誘導し、
(II)MP-SAEの非線形符号化ステップは、視覚言語モデルにおける異なるモダリティのように見える二分表現空間における共有構造を解き明かすのに役立ち、有用な特徴が線形にのみアクセス可能であるという仮定が不十分であることを示す。
また、MP-SAEのシーケンシャルエンコーダ原理は、独立性のある推論時間における適応的疎結合の利点を付加することを示した。
全体として、我々の結果は、解釈可能性は表現の現象論から始まるべきであり、それに適合する仮定から生まれる方法であるという考えに信ずるものであると論じる。
関連論文リスト
- Sparsification and Reconstruction from the Perspective of Representation Geometry [10.834177456685538]
スパースオートエンコーダ (SAE) は機械的解釈可能性において主要なツールである。
本研究は,表現幾何学の観点から,空間の原理を説明する。
具体的には、表現を理解し、表現の制約を取り入れることの必要性を強調している。
論文 参考訳(メタデータ) (2025-05-28T15:54:33Z) - The Origins of Representation Manifolds in Large Language Models [52.68554895844062]
表現空間におけるコサイン類似性は、最短のオンマンフォールド経路を通して特徴の内在幾何学を符号化することができることを示す。
理論の臨界仮定と予測は、大きな言語モデルのテキスト埋め込みとトークンアクティベーションに基づいて検証される。
論文 参考訳(メタデータ) (2025-05-23T13:31:22Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs [0.0]
本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。
スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
論文 参考訳(メタデータ) (2024-10-15T01:38:03Z) - Semantic Loss Functions for Neuro-Symbolic Structured Prediction [74.18322585177832]
このような構造に関する知識を象徴的に定義した意味的損失をトレーニングに注入する。
記号の配置に非依存であり、それによって表現される意味論にのみ依存する。
識別型ニューラルモデルと生成型ニューラルモデルの両方と組み合わせることができる。
論文 参考訳(メタデータ) (2024-05-12T22:18:25Z) - Labeling Neural Representations with Inverse Recognition [25.867702786273586]
Inverse Recognition (INVERT)は、学習した表現と人間の理解可能な概念を結びつけるためのスケーラブルなアプローチである。
以前の研究とは対照的に、INVERTは多様な種類のニューロンを処理でき、計算の複雑さが小さく、セグメンテーションマスクの可用性に依存しない。
本稿では,様々なシナリオにおけるINVERTの適用性を示す。
論文 参考訳(メタデータ) (2023-11-22T18:55:25Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Nonlinear ISA with Auxiliary Variables for Learning Speech
Representations [51.9516685516144]
補助変数の存在下では非線型独立部分空間解析(ISA)の理論的枠組みを導入する。
部分空間が独立な教師なし音声表現を学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-25T14:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。