論文の概要: Causal Attribution via Activation Patching
- arxiv url: http://arxiv.org/abs/2603.13652v1
- Date: Fri, 13 Mar 2026 23:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.316234
- Title: Causal Attribution via Activation Patching
- Title(参考訳): 活性化パッチングによる因果関係
- Authors: Amirmohammad Izadi, Mohammadali Banayeeanzade, Alireza Mirrokni, Hosein Hasani, Mobin Bagherian, Faridoun Mehri, Mahdieh Soleymani Baghshah,
- Abstract要約: 視覚変換器(ViT)のためのアクティベーションパッチング(CAAP)による因果属性を提案する。
CAAPは、内部アクティベーションに直接介入することで、ViTの予測に対する個々のイメージパッチの寄与を推定する。
結果の帰属マップは、パッチに関連する内部表現がモデルの予測に因果効果を反映している。
- 参考スコア(独自算出の注目度): 11.144828411529495
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Attribution methods for Vision Transformers (ViTs) aim to identify image regions that influence model predictions, but producing faithful and well-localized attributions remains challenging. Existing gradient-based and perturbation-based techniques often fail to isolate the causal contribution of internal representations associated with individual image patches. The key challenge is that class-relevant evidence is formed through interactions between patch tokens across layers, and input-level perturbations can be poor proxies for patch importance, since they may fail to reconstruct the internal evidence actually used by the model. We propose Causal Attribution via Activation Patching (CAAP), which estimates the contribution of individual image patches to the ViT's prediction by directly intervening on internal activations rather than using learned masks or synthetic perturbation patterns. For each patch, CAAP inserts the corresponding source-image activations into a neutral target context over an intermediate range of layers and uses the resulting target-class score as the attribution signal. The resulting attribution map reflects the causal effect of patch-associated internal representations on the model's prediction. The causal intervention serves as a principled measure of patch influence by capturing class-relevant evidence after initial representation formation, while avoiding late-layer global mixing that can reduce spatial specificity. Across multiple ViT backbones and standard metrics, CAAP significantly outperforms existing methods and produces more faithful and localized attributions.
- Abstract(参考訳): 視覚変換器(ViT)の属性法は,モデル予測に影響を与えるイメージ領域を特定することを目的としているが,忠実で局所的な属性を生成することは依然として困難である。
既存の勾配に基づく摂動に基づく手法は、個々の画像パッチに関連する内部表現の因果的寄与を分離できないことが多い。
重要な課題は、クラス関連エビデンスは層間のパッチトークン間の相互作用によって形成され、入力レベルの摂動はパッチの重要さにとって不十分なプロキシである。
本稿では,学習マスクや合成摂動パターンではなく,内部の活性化に直接介入することにより,個々の画像パッチのViT予測への寄与を推定するCausal Attribution via Activation Patching (CAAP)を提案する。
パッチ毎に、CAAPは対応するソースイメージのアクティベーションを中間範囲の層上の中立なターゲットコンテキストに挿入し、その結果のターゲットクラススコアを属性信号として使用する。
結果の帰属マップは、パッチに関連する内部表現がモデルの予測に因果効果を反映している。
因果介入は、初期表現形成後のクラス関連証拠を捕捉し、空間的特異性を低減できる後期のグローバルミキシングを回避し、パッチ影響の原則的尺度として機能する。
複数のViTバックボーンと標準メトリクスにわたって、CAAPは既存のメソッドを著しく上回り、より忠実で局所的な属性を生成する。
関連論文リスト
- Active Adversarial Noise Suppression for Image Forgery Localization [56.98050814363447]
本稿では、敵騒音の攻撃効果を抑制するために、防御的摂動を発生させる敵騒音抑制モジュール(ANSM)を提案する。
我々の知る限りでは、画像フォージェリローカライゼーションタスクにおける敵対的防御の報告としてはこれが初めてである。
論文 参考訳(メタデータ) (2025-06-15T14:53:27Z) - Attuned to Change: Causal Fine-Tuning under Latent-Confounded Shifts [32.989526411946606]
遅れた構築されたシフトに適応することは、現代AIにおける中核的な課題である。
1つの実用的障害モードは、構築されたデータに基づいて訓練済みの基礎モデルを微調整するときに発生する。
我々は、因果微調整を識別問題として捉え、入力を低レベルなスプリアス特徴に分解する明示的な因果モデルを示す。
論文 参考訳(メタデータ) (2024-10-18T11:06:23Z) - Counterfactual Reasoning for Multi-Label Image Classification via Patching-Based Training [84.95281245784348]
共起関係の過度な強調は、モデルの過度な問題を引き起こす可能性がある。
本稿では,対象対象物とその共起対象物による相関特性を媒介者とみなすことができることを示す因果推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:13:24Z) - Learning to Rank Patches for Unbiased Image Redundancy Reduction [80.93989115541966]
画像は、隣接する領域の画素が空間的に相関しているため、空間的冗長性に悩まされる。
既存のアプローチでは、意味の少ない画像領域を減らし、この制限を克服しようとしている。
本稿では,Learning to Rank Patchesと呼ばれる画像冗長性低減のための自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T13:12:41Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - Consistent Posterior Distributions under Vessel-Mixing: A Regularization
for Cross-Domain Retinal Artery/Vein Classification [30.30848090813239]
網膜A/V分類におけるクロスドメイン学習のための船舶混合型整合性正規化フレームワークを提案する。
提案手法は,対象ドメインに対する教師付き学習によって得られる上界に近い,最先端のクロスドメイン性能を実現する。
論文 参考訳(メタデータ) (2021-03-16T14:18:35Z) - Generating Out of Distribution Adversarial Attack using Latent Space
Poisoning [5.1314136039587925]
本稿では,実際の画像が破損しない敵の例を生成する新しいメカニズムを提案する。
潜在空間表現は、画像の固有構造を改ざんするために利用される。
勾配ベースの攻撃とは対照的に、潜時空間中毒は、トレーニングデータセットの独立かつ同一分布をモデル化する分類器の傾きを利用する。
論文 参考訳(メタデータ) (2020-12-09T13:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。