論文の概要: Detection Transformers Under the Knife: A Neuroscience-Inspired Approach to Ablations
- arxiv url: http://arxiv.org/abs/2507.21723v1
- Date: Tue, 29 Jul 2025 12:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.152211
- Title: Detection Transformers Under the Knife: A Neuroscience-Inspired Approach to Ablations
- Title(参考訳): ナイフ下の検出用トランスフォーマー : アブレーションに対する神経科学的なアプローチ
- Authors: Nils Hütten, Florian Hölken, Hasan Tercan, Tobias Meisen,
- Abstract要約: 我々は3つの最先端検出トランスモデルにおけるキーコンポーネントの破壊の影響を系統的に分析する。
我々は,これらの改善がパフォーマンス指標gIoUとF1スコアに与える影響を評価する。
本研究は, モデル性能に対する内部成分の寄与を明らかにすることにより, DETRのXAIを推し進める。
- 参考スコア(独自算出の注目度): 5.5967570276373655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Explainable AI has gained traction as an approach to enhancing model interpretability and transparency, particularly in complex models such as detection transformers. Despite rapid advancements, a substantial research gap remains in understanding the distinct roles of internal components - knowledge that is essential for improving transparency and efficiency. Inspired by neuroscientific ablation studies, which investigate the functions of brain regions through selective impairment, we systematically analyze the impact of ablating key components in three state-of-the-art detection transformer models: Detection transformer (DETR), deformable detection transformer (DDETR), and DETR with improved denoising anchor boxes (DINO). The ablations target query embeddings, encoder and decoder multi-head self-attentions (MHSA) as well as decoder multi-head cross-attention (MHCA) layers. We evaluate the effects of these ablations on the performance metrics gIoU and F1-score, quantifying effects on both the classification and regression sub-tasks on the COCO dataset. To facilitate reproducibility and future research, we publicly release the DeepDissect library. Our findings reveal model-specific resilience patterns: while DETR is particularly sensitive to ablations in encoder MHSA and decoder MHCA, DDETR's multi-scale deformable attention enhances robustness, and DINO exhibits the greatest resilience due to its look-forward twice update rule, which helps distributing knowledge across blocks. These insights also expose structural redundancies, particularly in DDETR's and DINO's decoder MHCA layers, highlighting opportunities for model simplification without sacrificing performance. This study advances XAI for DETRs by clarifying the contributions of internal components to model performance, offering insights to optimize and improve transparency and efficiency in critical applications.
- Abstract(参考訳): 近年、モデル解釈可能性と透明性を高めるアプローチとして、特に検出トランスフォーマーのような複雑なモデルにおいて、説明可能なAIが注目を集めている。
急速な進歩にもかかわらず、内部コンポーネントの明確な役割 — 透明性と効率を改善する上で不可欠な知識 — を理解する上で、かなりの研究ギャップが残っている。
選択的障害により脳領域の機能を調べる神経科学的アブレーション研究に触発され, 検出トランスフォーマ(DETR), 変形検出トランスフォーマ(DDETR), デノナイジングアンカーボックス(DINO)を改良したDDETRの3つの状態検出トランスフォーマモデルにおいて, キーコンポーネントの破壊が与える影響を系統的に解析した。
Ablationsターゲットクエリの埋め込み、エンコーダ、デコーダのマルチヘッド自己アテンション(MHSA)、およびデコーダのマルチヘッドクロスアテンション(MHCA)レイヤ。
評価指標gIoUとF1-scoreに対するこれらの改善の効果を評価し,COCOデータセットの分類および回帰サブタスクに与える影響を定量化する。
再現性と今後の研究を容易にするため,我々はDeepDissectライブラリを公開している。
DDETRはエンコーダMHSAおよびデコーダMHCAのアブレーションに特に敏感であるが、DDETRのマルチスケールの変形可能なアテンションはロバスト性を高め、DINOはそのルックフォワード2回更新規則により最大のレジリエンスを示し、ブロック間の知識の分散を支援する。
これらの洞察はまた、特にDDETRとDINOのデコーダMHCA層における構造的冗長性を明らかにし、性能を犠牲にすることなくモデル単純化の機会を強調している。
本研究は,DeTRのXAIを進化させ,性能をモデル化し,重要なアプリケーションにおける透明性と効率を最適化し,改善するための洞察を提供することにより,内部コンポーネントの貢献を明らかにする。
関連論文リスト
- CycleHOI: Improving Human-Object Interaction Detection with Cycle Consistency of Detection and Generation [37.45945633515955]
本稿では,人間と物体の相互作用(HOI)の検出性能を高めるために,CycleHOIという新しい学習フレームワークを提案する。
我々の鍵となる設計は、HOI検出器のトレーニングのための新しいサイクル整合性損失を導入することである。
我々は,CycleHOIの有効性と一般化力を検証するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-16T06:55:43Z) - An Attention-Based Deep Generative Model for Anomaly Detection in Industrial Control Systems [3.303448701376485]
異常検出は、産業制御システムの安全かつ信頼性の高い運用に不可欠である。
本稿では,このニーズを満たすための新しい深層生成モデルを提案する。
論文 参考訳(メタデータ) (2024-05-03T23:58:27Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System [7.1083241462091165]
我々は,光学的文字認識(OCR)を基本とする外部モダリティ誘導データマイニングフレームワークを導入し,画像から統計的特徴を抽出する。
提案手法の重要な側面は、単一のモーダル認識モデルを用いて抽出された外部モーダル特徴のアライメントであり、畳み込みニューラルネットワークによって符号化された画像特徴である。
本手法は欠陥検出モデルのリコール率を大幅に向上させ,挑戦シナリオにおいても高い堅牢性を維持する。
論文 参考訳(メタデータ) (2024-03-18T07:41:39Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - BDHT: Generative AI Enables Causality Analysis for Mild Cognitive Impairment [34.60961915466469]
軽度認知障害 (MCI) 解析に有効な接続性を推定するために, 階層型トランスフォーマー (BDHT) を用いた脳ディフューザを提案する。
提案手法は,既存手法に比べて精度と頑健性に優れる。
論文 参考訳(メタデータ) (2023-12-14T15:12:00Z) - ADT: Agent-based Dynamic Thresholding for Anomaly Detection [4.356615197661274]
本稿では,エージェントベースの動的しきい値処理(ADT)フレームワークを提案する。
本研究では,自動エンコーダを用いて特徴表現を取得し,複雑な入力データに対する異常スコアを生成する。
ADTはオートエンコーダの異常スコアを利用して閾値を適応的に調整することができる。
論文 参考訳(メタデータ) (2023-12-03T19:07:30Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Is Disentanglement enough? On Latent Representations for Controllable
Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。
VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-08-01T18:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。