論文の概要: From Local to Global to Mechanistic: An iERF-Centered Unified Framework for Interpreting Vision Models
- arxiv url: http://arxiv.org/abs/2605.00474v1
- Date: Fri, 01 May 2026 07:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.892777
- Title: From Local to Global to Mechanistic: An iERF-Centered Unified Framework for Interpreting Vision Models
- Title(参考訳): ローカルからグローバルへ:ビジョンモデルを解釈するためのiERF中心の統一フレームワーク
- Authors: Yearim Kim, Sangyu Han, Nojun Kwak,
- Abstract要約: iERF中心のフレームワークを導入し,局所的,グローバル的,メカニスティックな1つの解析ユニットの解釈性を統一する。
局所的に、共有比(Sharing Ratio Decomposition, SRD)は、各PFVを、共有比を介して上流のPFVの混合として表現し、iERFを伝播して、クラス別サリエンシマップを構築する。
グローバルな視点では,iERFをセマンティックラベルとして利用するConcept-Anchored Feature Explanation (CAFE)を導入する。
- 参考スコア(独自算出の注目度): 29.908678230814015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern vision models achieve remarkable accuracy, but explaining where evidence arises, what the model encodes, and how internal computations assemble that evidence remains fragmented. We introduce an iERF-centric framework that unifies local, global, and mechanistic interpretability around a single analysis unit: the pointwise feature vector (PFV) paired with its instance-specific Effective Receptive Field (iERF). On the local side, Sharing Ratio Decomposition (SRD) expresses each PFV as a mixture of upstream PFVs via sharing ratios and propagates iERFs to construct class-discriminative saliency maps. SRD yields high-resolution, activation-faithful explanations, is robust to targeted manipulation and noise, and remains activation-agnostic across common nonlinearities. For the global view, we introduce Concept-Anchored Feature Explanation (CAFE), which utilizes the iERF as a semantic label, grounding abstract latent vectors in verifiable pixel-level evidence. With CAFE, we address the challenge of non-localized sparse autoencoder latents--especially in Transformers, where early self-attention mixes distant context. To answer how representations are composed through depth, we propose the Interlayer Concept Graph with Interlayer Concept Attribution (ICAT), which quantifies concept-to-concept influence while isolating layer pairs; an interlayer insertion, deletion protocol identifies Integrated Gradients as the most faithful instantiation. Empirically, across ResNet50, VGG16, and ViTs, our framework outperforms baselines in both fidelity and robustness, successfully interprets dispersed SAE features, and exposes dominant concept routes in correct, misclassified, and adversarial cases. Grounded in iERFs, our approach provides a coherent, evidence-backed map from pixels to concepts to decisions.
- Abstract(参考訳): 現代の視覚モデルは目覚ましい精度を達成するが、どこにエビデンスが発生するか、モデルをエンコードしたもの、そしてどのように内部の計算がそれらのエビデンスを組み立てるかを説明する。
本稿では, 局所的, グローバル的, メカニスティックな1つの解析単位の解釈性を統一する iERF 中心のフレームワークを紹介し, 点方向特徴ベクトル (PFV) とインスタンス固有効用受容場 (iERF) をペアリングする。
局所的に、共有比(Sharing Ratio Decomposition, SRD)は、各PFVを、共有比を介して上流のPFVの混合として表現し、iERFを伝播して、クラス別サリエンシマップを構築する。
SRDは高分解能でアクティベーションに富んだ説明を与え、ターゲットの操作やノイズに対して堅牢であり、一般的な非線形性に対してアクティベーションに依存しない。
グローバルな視点では,iERFをセマンティックラベルとして用い,検証可能なピクセルレベルの証拠に抽象潜在ベクトルを基底として,概念アンコレッド特徴説明(CAFE)を導入する。
CAFEでは、非局所的なスパースオートエンコーダラプタント(特にトランスフォーマー)の課題に対処する。
層間挿入・削除プロトコルは,層間挿入・削除プロトコルを最も忠実なインスタンス化として識別する。
実証的には、ResNet50、VGG16、ViTs全体で、我々のフレームワークは、忠実さと堅牢さの両方でベースラインを上回り、分散SAE機能をうまく解釈し、正しい、分類されていない、敵のケースで支配的な概念ルートを公開する。
iERFをベースとした我々の手法は、ピクセルから概念、決定に至るまでの一貫性のあるエビデンスベースのマップを提供する。
関連論文リスト
- Enhancing Gradient Inversion Attacks in Federated Learning via Hierarchical Feature Optimization [56.95448807869383]
フェデレートラーニング(FL)は、プライバシを保存する分散機械学習の魅力的なパラダイムとして登場した。
近年の研究では、FLシステムで交換される勾配もプライバシー漏洩に弱いことが報告されている。
我々は textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD) を提案する。
論文 参考訳(メタデータ) (2026-04-01T14:32:15Z) - Towards Domain-Generalized Open-Vocabulary Object Detection: A Progressive Domain-invariant Cross-modal Alignment Method [59.30562121800656]
Open-Vocabulary Object Detectionは、新しいカテゴリへの一般化において大きな成功を収めた。
我々は、OVODパラダイムの原則的な見直しを行い、根本的な脆弱性を明らかにする。
PICA(Progressive Domain-invariant Cross-Modal Alignment)を提案する。
論文 参考訳(メタデータ) (2026-03-29T07:39:31Z) - MANAR: Memory-augmented Attention with Navigational Abstract Conceptual Representation [1.1470070927586016]
コンテキスト化層は標準のマルチヘッドアテンションを一般化する。
ManARの概念的なアドレスは、入力トークンの外側に確実に横たわる表現を合成する。
論文 参考訳(メタデータ) (2026-03-19T09:37:18Z) - Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction [83.48950950780554]
リモートセンシング画像からの抽出は、複雑な構造変化のために難しい課題である。
既存の方法は、セグメンテーションモデルにおけるマルチスケール特徴をキャプチャするために、畳み込みブロックまたは自己アテンションブロックを使用する。
高品質なグローバルローカルなビジュアルセマンティクスを活用するために,不確実性集約型グローバルローカルフュージョンネットワーク(UAGLNet)を提案する。
論文 参考訳(メタデータ) (2025-12-15T02:59:16Z) - Rethinking Infrared Small Target Detection: A Foundation-Driven Efficient Paradigm [17.63632082331749]
大規模視覚基盤モデル(VFM)は、多様な視覚領域にまたがる強力な一般化を示すが、単一フレーム赤外線小目標(SIRST)検出の可能性は、まだ明らかにされていない。
本稿では,既存のエンコーダデコーダベースの手法にシームレスに適応できるFDEP(Foundation-Driven Efficient Paradigm)を提案する。
論文 参考訳(メタデータ) (2025-12-05T08:12:35Z) - Causal Tracing of Object Representations in Large Vision Language Models: Mechanistic Interpretability and Hallucination Mitigation [27.62798534410331]
本稿では,視覚的物体知覚に対する因果的影響を系統的に定量化する,細粒度クロスモーダル因果追跡(FCCT)フレームワークを提案する。
FCCTは、視覚およびテキストトークンの全範囲、MHSA(Multi-head Self-attention)、FFN(Feed-forward Network)、隠された状態を含む3つのコアモデルコンポーネントを詳細に分析する。
我々の分析は、中間層における最後のトークンのMHSAが、クロスモーダル情報を集約する上で重要な役割を担い、FFNは3段階の階層的な保存の進行を示すことを初めて示すものである。
論文 参考訳(メタデータ) (2025-11-08T08:37:26Z) - OCRT: Boosting Foundation Models in the Open World with Object-Concept-Relation Triad [22.358084538002327]
我々は、FMが疎結合で高レベルな概念を抽出し、生の視覚的入力から複雑な関係構造を抽出できる新しいフレームワーク、Object-Concept-Relation Triad (OCRT)を提案する。
具体的には、オブジェクト中心の表現をセマンティックな概念空間に投影し、モデルが容易に解釈し、その重要性を推定し、無関係な要素をフィルタリングする。
具体的には、複数の下流タスクにおけるSAMとCLIPの一般化性と堅牢性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2025-03-24T14:04:17Z) - You Only Train Once: A Unified Framework for Both Full-Reference and No-Reference Image Quality Assessment [45.62136459502005]
本稿では,完全な参照 (FR) と非参照 (NR) IQA を行うネットワークを提案する。
まず、入力画像から多レベル特徴を抽出するためにエンコーダを用いる。
FRおよびNR入力のユニバーサルアダプタとして階層的注意(HA)モジュールを提案する。
エンコーダの浅い層と深い層との間の特徴相関を調べるために, セマンティック・ディストーション・アウェア (SDA) モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-14T11:03:04Z) - Centralized Feature Pyramid for Object Detection [53.501796194901964]
視覚的特徴ピラミッドは、広範囲のアプリケーションにおいて、有効性と効率の両方において、その優位性を示している。
本稿では,オブジェクト検出のためのOLO特徴ピラミッドを提案する。
論文 参考訳(メタデータ) (2022-10-05T08:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。