論文の概要: Archetypal SAE: Adaptive and Stable Dictionary Learning for Concept Extraction in Large Vision Models
- arxiv url: http://arxiv.org/abs/2502.12892v1
- Date: Tue, 18 Feb 2025 14:29:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:06:56.552004
- Title: Archetypal SAE: Adaptive and Stable Dictionary Learning for Concept Extraction in Large Vision Models
- Title(参考訳): Archetypal SAE:大規模視覚モデルにおける概念抽出のための適応的で安定な辞書学習
- Authors: Thomas Fel, Ekdeep Singh Lubana, Jacob S. Prince, Matthew Kowal, Victor Boutin, Isabel Papadimitriou, Binxu Wang, Martin Wattenberg, Demba Ba, Talia Konkle,
- Abstract要約: スパースオートエンコーダ(SAE)は、機械学習の解釈可能性のための強力なフレームワークとして登場した。
既存のSAEは、類似したデータセットでトレーニングされた同一のモデルは、非常に異なる辞書を生成することができるため、深刻な不安定性を示す。
本稿では、辞書の原子を凸殻に拘束するArchitypal SAEについて述べる。
- 参考スコア(独自算出の注目度): 16.894375498353092
- License:
- Abstract: Sparse Autoencoders (SAEs) have emerged as a powerful framework for machine learning interpretability, enabling the unsupervised decomposition of model representations into a dictionary of abstract, human-interpretable concepts. However, we reveal a fundamental limitation: existing SAEs exhibit severe instability, as identical models trained on similar datasets can produce sharply different dictionaries, undermining their reliability as an interpretability tool. To address this issue, we draw inspiration from the Archetypal Analysis framework introduced by Cutler & Breiman (1994) and present Archetypal SAEs (A-SAE), wherein dictionary atoms are constrained to the convex hull of data. This geometric anchoring significantly enhances the stability of inferred dictionaries, and their mildly relaxed variants RA-SAEs further match state-of-the-art reconstruction abilities. To rigorously assess dictionary quality learned by SAEs, we introduce two new benchmarks that test (i) plausibility, if dictionaries recover "true" classification directions and (ii) identifiability, if dictionaries disentangle synthetic concept mixtures. Across all evaluations, RA-SAEs consistently yield more structured representations while uncovering novel, semantically meaningful concepts in large-scale vision models.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、機械学習の解釈可能性のための強力なフレームワークとして登場し、モデル表現を抽象的、人間の解釈可能な概念の辞書に教師なしの分解を可能にする。
既存のSAEは、類似のデータセットでトレーニングされた同一のモデルは、非常に異なる辞書を生成することができ、解釈可能性ツールとしての信頼性を損なう可能性がある。
この問題に対処するために、Cutler & Breiman (1994) とArchitypal SAEs (A-SAE) によって導入されたArchitypal Analysisフレームワークから着想を得た。
この幾何アンカーリングは、推論辞書の安定性を著しく向上させ、その緩やかに緩和された変種RA-SAEは、さらに最先端の復元能力に適合する。
SAEが学習した辞書の品質を厳格に評価するために、テストする2つの新しいベンチマークを導入する。
一 辞書が「真の」分類の方向性を回復し、かつ、その妥当性
(二 辞書が合成概念を混同しない場合の識別可能性。)
すべての評価において、RA-SAEは一貫してより構造化された表現をもたらしながら、大規模視覚モデルにおける新しい意味論的概念を明らかにする。
関連論文リスト
- Towards Principled Evaluations of Sparse Autoencoders for Interpretability and Control [43.860799289234755]
本稿では,特定のタスクの文脈における特徴辞書を評価するためのフレームワークを提案する。
まず,教師付き辞書は,タスクにおけるモデル計算の近似,制御,解釈性に優れることを示す。
GPT-2 Small を用いた間接オブジェクト識別(IOI)タスクに適用し,IOI や OpenWebText のデータセットで訓練したスパースオートエンコーダ (SAE) を用いた。
論文 参考訳(メタデータ) (2024-05-14T07:07:13Z) - Towards a Fully Interpretable and More Scalable RSA Model for Metaphor Understanding [0.8437187555622164]
Rational Speech Act (RSA) モデルは、計算用語で実用的推論をモデル化するための柔軟なフレームワークを提供する。
本稿では、明示的な公式を提供することで制限に対処するメタファー理解のための新しいRSAフレームワークを提案する。
このモデルは、従来の$textitJohn-is-a-shark$型に限らず、24のメタファでテストされた。
論文 参考訳(メタデータ) (2024-04-03T18:09:33Z) - On the Tip of the Tongue: Analyzing Conceptual Representation in Large
Language Models with Reverse-Dictionary Probe [36.65834065044746]
我々は、言語記述に暗示される対象概念の用語を生成するために、文脈内学習を用いてモデルを誘導する。
実験結果から,逆ディファレンシャルタスクによって探索された概念推論能力は,モデルの一般的な推論性能を予測することが示唆された。
論文 参考訳(メタデータ) (2024-02-22T09:45:26Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - Syntactically Robust Training on Partially-Observed Data for Open
Information Extraction [25.59133746149343]
オープン情報抽出モデルは十分な監督力を持った有望な結果を示している。
そこで本研究では,統語論的に頑健な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:39:13Z) - Equivariant Transduction through Invariant Alignment [71.45263447328374]
グループ内ハードアライメント機構を組み込んだ,新しいグループ同変アーキテクチャを提案する。
我々のネットワーク構造は、既存のグループ同変アプローチよりも強い同変特性を発達させることができる。
また、SCANタスクにおいて、従来のグループ同変ネットワークよりも経験的に優れていたことが判明した。
論文 参考訳(メタデータ) (2022-09-22T11:19:45Z) - The King is Naked: on the Notion of Robustness for Natural Language
Processing [18.973116252065278]
言語的忠実性という人間の概念に適合した意味的堅牢性について論じる。
テンプレートベースの生成テストベッドを用いて,バニラおよび頑健なアーキテクチャのセマンティックロバスト性について検討した。
論文 参考訳(メタデータ) (2021-12-13T16:19:48Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Introducing Syntactic Structures into Target Opinion Word Extraction
with Deep Learning [89.64620296557177]
目的語抽出のためのディープラーニングモデルに文の構文構造を組み込むことを提案する。
また,ディープラーニングモデルの性能向上のために,新たな正規化手法を導入する。
提案モデルは,4つのベンチマークデータセット上での最先端性能を広範囲に解析し,達成する。
論文 参考訳(メタデータ) (2020-10-26T07:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。