論文の概要: Sparsity as a Key: Unlocking New Insights from Latent Structures for Out-of-Distribution Detection
- arxiv url: http://arxiv.org/abs/2604.26409v1
- Date: Wed, 29 Apr 2026 08:23:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.308853
- Title: Sparsity as a Key: Unlocking New Insights from Latent Structures for Out-of-Distribution Detection
- Title(参考訳): 鍵としてのスパーシリティ:分布外検出のための潜在構造からの新たな洞察を解き放つ
- Authors: Ahyoung Oh, Wonseok Shin, Songkuk Kim,
- Abstract要約: 本稿では, オフ・オブ・ディストリビューション(OOD)検出のためのViT[]トークンにSAEを初めて適用する。
以上の結果から,SAEが明らかにした疎結合な特徴は,視覚モデルにおける強力なOOD検出のための強力な解釈可能なツールとして機能する可能性が示唆された。
- 参考スコア(独自算出の注目度): 4.496267803613718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Autoencoders (SAEs) have demonstrated significant success in interpreting Large Language Models (LLMs) by decomposing dense representations into sparse, semantic components. However, their potential for analyzing Vision Transformers (ViTs) remains largely under-explored. In this work, we present the first application of SAEs to the ViT [CLS] token for out-of-distribution (OOD) detection, addressing the limitation of existing methods that rely on entangled feature representations. We propose a novel framework utilizing a Top-k SAE to disentangle the dense [CLS] features into a structured latent space. Through this analysis, we reveal that in-distribution (ID) data exhibits consistent, class-specific activation patterns, which we formalize as Class Activation Profiles (CAPs). Our study uncovers a key structural invariant: while ID samples preserve a stable pattern within CAPs, OOD samples systematically disrupt this structure. Leveraging this insight, we introduce a scoring function based on the divergence of core energy profiles to quantify the deviation from ideal activation profiles. Our method achieves strong results on the FPR95 metric, critical for safety-sensitive applications across multiple benchmarks, while also achieving competitive AUROC. Overall, our findings demonstrate that the sparse, disentangled features revealed by SAEs can serve as a powerful, interpretable tool for robust OOD detection in vision models.
- Abstract(参考訳): スパースオートエンコーダ (SAE) は、密度の高い表現をスパースなセマンティックコンポーネントに分解することで、Large Language Models (LLM) を解釈することに成功した。
しかし、ビジョントランスフォーマー(ViT)を解析する可能性はほとんど探索されていない。
本研究では, 絡み合った特徴表現に依存する既存手法の制限に対処するため, オフ・オブ・ディストリビューション(OOD)検出のためのViT[CLS]トークンにSAEを初めて適用した。
そこで本研究では,Top-k SAEを用いて,高密度(CLS)特徴を構造化潜在空間に分散させる新しいフレームワークを提案する。
この分析により,非分配データ(ID)が一貫したクラス固有のアクティベーションパターンを示し,それをクラスアクティベーションプロファイル(CAP)として定式化することを明らかにした。
IDサンプルはCAP内に安定なパターンを保持するが、OODサンプルはこの構造を体系的に破壊する。
この知見を生かして、理想的な活性化プロファイルからの偏差を定量化するために、コアエネルギープロファイルのばらつきに基づくスコアリング関数を導入する。
提案手法は,複数のベンチマークにおいて安全性に敏感なアプリケーションに対して重要であり,競合するAUROCも達成する。
総じて,SAEが明らかにした疎結合な特徴は,視覚モデルにおける強力なOOD検出のための強力な解釈可能なツールとして有効であることが示された。
関連論文リスト
- Matching-Based Few-Shot Semantic Segmentation Models Are Interpretable by Design [8.993770750003673]
Few-Shot Semantic (FSS)モデルは、最小限のラベル付き例を持つ新規クラスのセグメンテーションにおいて強力な性能を達成する。
本稿では、マッチングベースのFSSモデルを解釈するための最初の専用手法を提案する。
Affinity Explainer アプローチは,画像のどのピクセルがクエリセグメンテーション予測に最も寄与しているかを示す属性マップを抽出する。
論文 参考訳(メタデータ) (2025-11-22T19:22:10Z) - Analysis of Variational Sparse Autoencoders [1.675385127117872]
SAEアーキテクチャに変分手法を組み込むことで,特徴構造や解釈可能性が改善されるかどうかを検討する。
本稿では,変分スパースオートエンコーダ(vSAE)を導入し,決定論的ReLUゲーティングを学習したガウス後部からのサンプリングに置き換える。
以上の結果から,SAEに対する変分法の適用は,機能的構造や解釈可能性の向上には至らないことが示唆された。
論文 参考訳(メタデータ) (2025-09-26T23:09:56Z) - Dense SAE Latents Are Features, Not Bugs [86.50389855919292]
言語モデル計算において,高密度潜伏剤が機能的役割を担っていることを示す。
位置追跡,コンテキストバインディング,エントロピー制御,文字固有出力信号,パート・オブ・音声,主成分再構成に関連するクラスを同定する。
論文 参考訳(メタデータ) (2025-06-18T17:59:35Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Clustering Properties of Self-Supervised Learning [14.756786256090704]
自己教師付き学習(SSL)法は、強力なクラスタリング特性を持つ意味的にリッチな表現を捉えるのに極めて効果的であることが証明されている。
本稿では,自己指導型学習を促進するためにモデルのクラスタリング特性を活用する,Representation Self-Assignment (ReSA) と呼ばれる新しい正フィードバックSSL手法を提案する。
論文 参考訳(メタデータ) (2025-01-30T16:05:35Z) - TopoFR: A Closer Look at Topology Alignment on Face Recognition [58.45515807380505]
PTSAと呼ばれるトポロジカル構造アライメント戦略とSDEという硬質試料マイニング戦略を利用する新しいFRモデルであるTopoFRを提案する。
PTSAは永続ホモロジーを用いて入力空間と潜在空間の位相構造を整列し、構造情報を効果的に保存し、FRモデルの一般化性能を向上させる。
一般的な顔のベンチマーク実験の結果は、最先端の手法よりもTopoFRの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-10-14T14:58:30Z) - Be Your Own Neighborhood: Detecting Adversarial Example by the
Neighborhood Relations Built on Self-Supervised Learning [64.78972193105443]
本稿では,予測に有効な新しいAE検出フレームワークを提案する。
AEの異常な関係と拡張バージョンを区別して検出を行う。
表現を抽出し、ラベルを予測するために、既製の自己監視学習(SSL)モデルが使用される。
論文 参考訳(メタデータ) (2022-08-31T08:18:44Z) - Structure-Aware Feature Generation for Zero-Shot Learning [108.76968151682621]
潜在空間と生成ネットワークの両方を学習する際の位相構造を考慮し,SA-GANと呼ばれる新しい構造認識特徴生成手法を提案する。
本手法は,未確認クラスの一般化能力を大幅に向上させ,分類性能を向上させる。
論文 参考訳(メタデータ) (2021-08-16T11:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。