論文の概要: EIVE: End-to-End Instance-Specific Visual Explanations for Detection Transformers
- arxiv url: http://arxiv.org/abs/2606.01601v1
- Date: Mon, 01 Jun 2026 02:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.884994
- Title: EIVE: End-to-End Instance-Specific Visual Explanations for Detection Transformers
- Title(参考訳): EIVE:End-to-End Instance-Specific Visual Explanations for Detection Transformers
- Authors: Jianlin Xiang, Yanshan Li, Linhui Dai,
- Abstract要約: EIVE(End-to-end Instance-specific Visual Explanation framework)を提案する。
EIVEは、検出トランスフォーマー(DETR)のようなモデルの前方通過に従って、インスタンスレベルのサリエンシマップを直接生成する。
MS 2017の実験では、ExDarkとCityscapesは、EIVEが高品質のインスタンスレベルの唾液マップを生成することを示した。
- 参考スコア(独自算出の注目度): 7.91708974258006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual explainability for object detection remains challenging due to the multi-instance nature of detection. Existing approaches predominantly adopt post-hoc paradigms, such as gradient-based or perturbation-based explanation methods, to interpret pretrained detectors. However, these methods require additional gradient computation or repeated model inference, resulting in limited efficiency. To address this issue, we propose an End-to-end Instance-specific Visual Explanation framework (EIVE) that directly generates instance-level saliency maps following the forward pass of Detection Transformer (DETR)-like models. Specifically, we reformulate the cross-attention mechanism in the decoder as an instance-level feature attribution pathway, so that the cross-attention of each object query corresponds to the visual attribution of its predicted instance. Based on this formulation, we design a cross-layer hybrid consensus fusion (CLHCF) module to aggregate cross-attention signals across decoder layers, producing stable and compact explanations. The explanation process of EIVE requires neither gradient computation nor input perturbation, yielding high computational efficiency, and applies to single- and multi-scale DETR-like object detectors. Finally, we present an attention-aware joint training strategy (AAJTS) as a training-oriented application, which imposes spatial constraints on cross-attention patterns to encourage stable and concentrated attribution representations, thereby improving both interpretability and detection performance. Experiments on MS COCO 2017, ExDark, and Cityscapes demonstrate that EIVE produces high-quality instance-level saliency maps and achieves performance comparable to, or better than, state-of-the-art post-hoc methods across standard metrics, while substantially improving explanation efficiency. Code is available at https://github.com/xjlDestiny/EIVE.git.
- Abstract(参考訳): オブジェクト検出の視覚的説明性は、検出のマルチインスタンス性のため、依然として困難である。
既存のアプローチでは、事前訓練された検出器を解釈するために、勾配ベースや摂動に基づく説明法のようなポストホックパラダイムを主に採用している。
しかし、これらの手法にはさらなる勾配計算や繰り返しモデル推論が必要であり、効率は制限される。
この問題に対処するために,検出変換器(DETR)モデルに類似したインスタンスレベルのサリエンシマップを直接生成する,エンドツーエンドのインスタンス固有のVisual Explanationフレームワーク(EIVE)を提案する。
具体的には,デコーダのクロスアトリビューション機構をインスタンスレベルの特徴属性経路として再構成し,各オブジェクトクエリのクロスアトリビューションが予測されたインスタンスの視覚的アトリビューションに対応するようにする。
この定式化に基づいて,デコーダ層にまたがるクロスアテンション信号を集約し,安定かつコンパクトな説明を行う,クロス層ハイブリッドコンセンサス融合 (CLHCF) モジュールを設計する。
EIVEの説明プロセスでは、勾配計算も入力摂動も必要とせず、高い計算効率が得られ、シングルスケールおよびマルチスケールのDETRのような物体検出器にも適用できる。
最後に,アテンション・アウェア・ジョイント・トレーニング・ストラテジー (AAJTS) をトレーニング指向のアプリケーションとして提案し,アテンション・パターンに空間的制約を課し,安定かつ集中的な属性表現を奨励し,解釈可能性と検出性能を両立させる。
MS COCO 2017、ExDark、Cityscapesでの実験では、EIVEは高品質なインスタンスレベルのサリエンシマップを生成し、標準的なメトリクスをまたいだ最先端のポストホックメソッドに匹敵するパフォーマンスを達成し、説明効率を大幅に改善した。
コードはhttps://github.com/xjlDestiny/EIVE.git.comで入手できる。
関連論文リスト
- Hierarchical Consistency Learning for Test-time Adaptation in Camouflage Perception [50.278200968044665]
カモフラージュされた物体検出(COD)は、物理的属性を通して背景から最小限の知覚差を示すターゲットをローカライズすることを目的としている。
既存のメソッドは、静的なTrain-then-freezeパラダイムによって制約されており、ドメインの剛性と依存性のアノテーションに悩まされている。
動的表現再構成のためのテスト時間適応を統合した階層的一貫性学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-25T09:57:46Z) - IoUCert: Robustness Verification for Anchor-based Object Detectors [58.35703549470485]
IoUCertは、アンカーベースのオブジェクト検出アーキテクチャにおいて、これらのボトルネックを克服するために設計された、新しい形式的検証フレームワークである。
本手法は, SSD, YOLOv2, YOLOv3など, 現実的なアンカーベースモデルの各種入力摂動に対するロバスト性検証を可能にする。
論文 参考訳(メタデータ) (2026-03-03T14:36:46Z) - Rethinking Contrastive Learning in Graph Anomaly Detection: A Clean-View Perspective [54.605073936695575]
グラフ異常検出は、Webセキュリティやファイナンシャル不正検出などの分野で広く応用されているグラフベースのデータにおいて、異常なパターンを特定することを目的としている。
既存の手法は対照的な学習に依存しており、ノードとその局所部分グラフの間のより低い類似性は異常を示すと仮定する。
干渉エッジの存在は、対照的な学習過程を損なう破壊的なノイズをもたらすため、この仮定を無効にする。
コントラスト学習プロセスにおいて重要な干渉源を特定するために,複数スケールの異常認識モジュールを含むクリーンビュー拡張グラフ異常検出フレームワーク(CVGAD)を提案する。
論文 参考訳(メタデータ) (2025-05-23T15:05:56Z) - Efficient Human-Object-Interaction (EHOI) Detection via Interaction Label Coding and Conditional Decision [33.59153869330463]
本研究では, 検出性能, 推論複雑性, 数学的透明性のバランスを良くするために, 効率の良いHOI検出器を提案する。
我々の貢献は、稀な相互作用のケースをエンコードするためのエラー訂正符号(ECC)の適用を含む。
実験により,ECC符号化対話ラベルの利点と検出性能とEHOI法の複雑さのバランスが良好であることが示された。
論文 参考訳(メタデータ) (2024-08-13T16:34:06Z) - Noise-Free Explanation for Driving Action Prediction [11.330363757618379]
我々は, この欠陥を解消するための, 実装が容易だが効果的な方法を提案する: 平滑な騒音ノルム注意(SNNA)
変換された値ベクトルのノルムで注意を重み付け、アテンション勾配でラベル固有の信号を誘導し、入力摂動をランダムにサンプリングし、対応する勾配を平均化し、ノイズのない属性を生成する。
定性的かつ定量的な評価結果は、より明確な視覚的説明図を作成し、入力画素の重要度をランク付けする他のSOTA注意に基づく説明可能な方法と比較して、SNNAの優位性を示している。
論文 参考訳(メタデータ) (2024-07-08T19:21:24Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Self-Guided Adaptation: Progressive Representation Alignment for Domain
Adaptive Object Detection [86.69077525494106]
非教師なしドメイン適応(UDA)は、オブジェクト検出モデルのドメイン間ロバスト性を改善するために前例のない成功を収めた。
既存のUDA手法は、モデル学習中の瞬間的なデータ分布を無視しており、大きなドメインシフトによって特徴表現が劣化する可能性がある。
本稿では、特徴表現の整合とドメイン間のオブジェクト検出モデルの転送を目標とする自己ガイド適応モデルを提案する。
論文 参考訳(メタデータ) (2020-03-19T13:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。