論文の概要: Causal Interpretation of Sparse Autoencoder Features in Vision
- arxiv url: http://arxiv.org/abs/2509.00749v1
- Date: Sun, 31 Aug 2025 08:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.372923
- Title: Causal Interpretation of Sparse Autoencoder Features in Vision
- Title(参考訳): 視覚におけるスパースオートエンコーダの特徴の因果解釈
- Authors: Sangyu Han, Yearim Kim, Nojun Kwak,
- Abstract要約: セルフアテンション(Self-attention)は、画像全体に情報を混合するので、アクティベートされたパッチは、しばしば共起するが、この機能の発火の原因にはならない。
有効受容場(ERF)を利用したCaFE(Causal Feature Explanation)を提案する。
以上の結果から,CaFEは視覚-SAEの特徴をより忠実かつ意味論的に説明し,活性化位置のみに依存する場合の誤解釈の危険性を強調した。
- 参考スコア(独自算出の注目度): 29.908678230814015
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Understanding what sparse auto-encoder (SAE) features in vision transformers truly represent is usually done by inspecting the patches where a feature's activation is highest. However, self-attention mixes information across the entire image, so an activated patch often co-occurs with-but does not cause-the feature's firing. We propose Causal Feature Explanation (CaFE), which leverages Effective Receptive Field (ERF). We consider each activation of an SAE feature to be a target and apply input-attribution methods to identify the image patches that causally drive that activation. Across CLIP-ViT features, ERF maps frequently diverge from naive activation maps, revealing hidden context dependencies (e.g., a "roaring face" feature that requires the co-occurrence of eyes and nose, rather than merely an open mouth). Patch insertion tests confirm that CaFE more effectively recovers or suppresses feature activations than activation-ranked patches. Our results show that CaFE yields more faithful and semantically precise explanations of vision-SAE features, highlighting the risk of misinterpretation when relying solely on activation location.
- Abstract(参考訳): 視覚変換器におけるスパースオートエンコーダ(SAE)の機能の理解は通常、機能のアクティベーションが最も高いパッチを検査することで行われる。
しかし、自己注意は画像全体に情報を混在させるため、アクティベートされたパッチはしばしば共起するが、この機能の発火の原因にはならない。
本稿では,有効受容場(ERF)を利用したCaFE(Causal Feature Explanation)を提案する。
我々は、SAE機能のアクティベーションをターゲットとみなし、そのアクティベーションを因果的に駆動するイメージパッチを特定するために、入出力手法を適用した。
CLIP-ViT機能全体では、ERFマップはナイーブなアクティベーションマップから頻繁に分岐し、隠れたコンテキスト依存性を明らかにする(例えば、単にオープンな口ではなく、目と鼻の共起を必要とする"ローリングフェイス"機能)。
パッチ挿入テストでは、CaFEはアクティベーションランクのパッチよりも機能活性化をより効果的に回復または抑制する。
以上の結果から,CaFEは視覚-SAEの特徴をより忠実かつ意味論的に説明し,活性化位置のみに依存する場合の誤解釈の危険性を強調した。
関連論文リスト
- Attention Hijackers: Detect and Disentangle Attention Hijacking in LVLMs for Hallucination Mitigation [123.54980913741828]
LVLM(Large Vision-Language Models)は幻覚に弱い。
AID(Attention HIjackers Detection and Disentanglement)と呼ばれる新しい非トレーニング型戦略を提案する。
AIDは、命令駆動の視覚的サリエンスを計算することによって、意図的ヒジャッカーを特定する。
次に、これらの特定されたヒジャッカーの視覚的注意を隠蔽するために注意散らし機構を提案する。
Re-Disentanglementは、過剰なマスキング効果を避けるために、命令駆動と画像駆動の視覚的サリエンスの間のバランスを再計算する。
論文 参考訳(メタデータ) (2025-03-11T09:35:55Z) - Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。
我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。
g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文 参考訳(メタデータ) (2024-11-15T18:03:52Z) - SurANet: Surrounding-Aware Network for Concealed Object Detection via Highly-Efficient Interactive Contrastive Learning Strategy [55.570183323356964]
本稿では,隠蔽物体検出のための新しいSurrounding-Aware Network,すなわちSurANetを提案する。
周辺特徴の差分融合を用いて特徴写像のセマンティクスを強化し,隠蔽対象の強調を行う。
次に、周囲の特徴写像を対照的に学習することで隠蔽対象を識別するために、周囲のコントラストロスを適用した。
論文 参考訳(メタデータ) (2024-10-09T13:02:50Z) - Attention-based Class Activation Diffusion for Weakly-Supervised
Semantic Segmentation [98.306533433627]
クラスアクティベーションマップの抽出(CAM)は、弱教師付きセマンティックセグメンテーション(WSSS)の重要なステップである
本稿では,CAMとアテンション行列を確率的拡散法で結合する新しい手法を提案し,それをAD-CAMとダブする。
擬似ラベルとしてのAD-CAMは、最先端のCAMよりも強力なWSSSモデルが得られることを示す実験である。
論文 参考訳(メタデータ) (2022-11-20T10:06:32Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised
Object Localization [112.46381729542658]
弱監督オブジェクトローカリゼーション(WSOL)は、画像カテゴリラベルを与えられたときに難しい問題です。
長距離依存抽出のための視覚変換器における自己注意機構をフル活用するために,トークン意味結合注意マップ(TS-CAM)を導入する。
論文 参考訳(メタデータ) (2021-03-27T09:43:16Z) - AttributeNet: Attribute Enhanced Vehicle Re-Identification [70.89289512099242]
本稿では,属性特徴と属性特徴を共同で抽出するAttributeNet(ANet)を提案する。
ReID-helpful属性特徴を蒸留し、一般的なReID特徴に加えることで、識別能力を高めることができる。
3つの挑戦的なデータセットに対して,我々のフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2021-02-07T19:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。