論文の概要: Detection Transformers Under the Knife: A Neuroscience-Inspired Approach to Ablations
- arxiv url: http://arxiv.org/abs/2507.21723v1
- Date: Tue, 29 Jul 2025 12:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.152211
- Title: Detection Transformers Under the Knife: A Neuroscience-Inspired Approach to Ablations
- Title(参考訳): ナイフ下の検出用トランスフォーマー : アブレーションに対する神経科学的なアプローチ
- Authors: Nils Hütten, Florian Hölken, Hasan Tercan, Tobias Meisen,
- Abstract要約: 我々は3つの最先端検出トランスモデルにおけるキーコンポーネントの破壊の影響を系統的に分析する。
我々は,これらの改善がパフォーマンス指標gIoUとF1スコアに与える影響を評価する。
本研究は, モデル性能に対する内部成分の寄与を明らかにすることにより, DETRのXAIを推し進める。
- 参考スコア(独自算出の注目度): 5.5967570276373655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Explainable AI has gained traction as an approach to enhancing model interpretability and transparency, particularly in complex models such as detection transformers. Despite rapid advancements, a substantial research gap remains in understanding the distinct roles of internal components - knowledge that is essential for improving transparency and efficiency. Inspired by neuroscientific ablation studies, which investigate the functions of brain regions through selective impairment, we systematically analyze the impact of ablating key components in three state-of-the-art detection transformer models: Detection transformer (DETR), deformable detection transformer (DDETR), and DETR with improved denoising anchor boxes (DINO). The ablations target query embeddings, encoder and decoder multi-head self-attentions (MHSA) as well as decoder multi-head cross-attention (MHCA) layers. We evaluate the effects of these ablations on the performance metrics gIoU and F1-score, quantifying effects on both the classification and regression sub-tasks on the COCO dataset. To facilitate reproducibility and future research, we publicly release the DeepDissect library. Our findings reveal model-specific resilience patterns: while DETR is particularly sensitive to ablations in encoder MHSA and decoder MHCA, DDETR's multi-scale deformable attention enhances robustness, and DINO exhibits the greatest resilience due to its look-forward twice update rule, which helps distributing knowledge across blocks. These insights also expose structural redundancies, particularly in DDETR's and DINO's decoder MHCA layers, highlighting opportunities for model simplification without sacrificing performance. This study advances XAI for DETRs by clarifying the contributions of internal components to model performance, offering insights to optimize and improve transparency and efficiency in critical applications.
- Abstract(参考訳): 近年、モデル解釈可能性と透明性を高めるアプローチとして、特に検出トランスフォーマーのような複雑なモデルにおいて、説明可能なAIが注目を集めている。
急速な進歩にもかかわらず、内部コンポーネントの明確な役割 — 透明性と効率を改善する上で不可欠な知識 — を理解する上で、かなりの研究ギャップが残っている。
選択的障害により脳領域の機能を調べる神経科学的アブレーション研究に触発され, 検出トランスフォーマ(DETR), 変形検出トランスフォーマ(DDETR), デノナイジングアンカーボックス(DINO)を改良したDDETRの3つの状態検出トランスフォーマモデルにおいて, キーコンポーネントの破壊が与える影響を系統的に解析した。
Ablationsターゲットクエリの埋め込み、エンコーダ、デコーダのマルチヘッド自己アテンション(MHSA)、およびデコーダのマルチヘッドクロスアテンション(MHCA)レイヤ。
評価指標gIoUとF1-scoreに対するこれらの改善の効果を評価し,COCOデータセットの分類および回帰サブタスクに与える影響を定量化する。
再現性と今後の研究を容易にするため,我々はDeepDissectライブラリを公開している。
DDETRはエンコーダMHSAおよびデコーダMHCAのアブレーションに特に敏感であるが、DDETRのマルチスケールの変形可能なアテンションはロバスト性を高め、DINOはそのルックフォワード2回更新規則により最大のレジリエンスを示し、ブロック間の知識の分散を支援する。
これらの洞察はまた、特にDDETRとDINOのデコーダMHCA層における構造的冗長性を明らかにし、性能を犠牲にすることなくモデル単純化の機会を強調している。
本研究は,DeTRのXAIを進化させ,性能をモデル化し,重要なアプリケーションにおける透明性と効率を最適化し,改善するための洞察を提供することにより,内部コンポーネントの貢献を明らかにする。
関連論文リスト
- Multi-Agent Collaborative Intrusion Detection for Low-Altitude Economy IoT: An LLM-Enhanced Agentic AI Framework [60.72591149679355]
低高度経済の急速な拡大により、インターネット・オブ・モノ(LAE-IoT)ネットワークは前例のないセキュリティ上の課題を生んだ。
従来の侵入検知システムは、空中IoT環境のユニークな特徴に対処できない。
LAE-IoTネットワークにおける侵入検出を強化するための大規模言語モデル(LLM)対応エージェントAIフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-25T12:47:25Z) - EEG-D3: A Solution to the Hidden Overfitting Problem of Deep Learning Models [33.22173262655432]
本稿では,脳波データセット間でのディープラーニングモデルをトレーニングする弱い教師付き手法であるDisentangled Decoding Decomposition (D3)を紹介する。
入力ウィンドウがサンプリングされた各トライアルシーケンスの場所を予測することで、EEG-D3は脳活動の潜伏成分を分離する。
我々は、線形分離可能な潜伏空間を利用して、睡眠段階分類における効果的な数ショット学習を行う。
論文 参考訳(メタデータ) (2025-12-15T19:00:10Z) - FAIM: Frequency-Aware Interactive Mamba for Time Series Classification [87.84511960413715]
時系列分類(TSC)は、環境モニタリング、診断、姿勢認識など、多くの実世界の応用において重要である。
本稿では,周波数対応対話型マンバモデルであるFAIMを提案する。
FAIMは既存の最先端(SOTA)手法を一貫して上回り、精度と効率のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2025-11-26T08:36:33Z) - Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Source-Free Object Detection with Detection Transformer [59.33653163035064]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースドメインから教師なしのターゲットドメインへの知識転送を可能にする。
ほとんどの既存のSFODアプローチは、より高速なR-CNNのような従来のオブジェクト検出(OD)モデルに限られるか、新しいODアーキテクチャ、特に検出変換器(DETR)に適合しない一般的なソリューションとして設計されている。
本稿では,DTRのクエリ中心の機能強化を特化して設計された新しいSFODフレームワークであるFeature Reweighting ANd Contrastive Learning NetworK(FRANCK)を紹介する。
論文 参考訳(メタデータ) (2025-10-13T07:35:04Z) - Transformer-Based Indirect Structural Health Monitoring of Rail Infrastructure with Attention-Driven Detection and Localization of Transient Defects [1.1782896991259]
我々は,段階的に複雑な課題に対してモデルロバスト性を評価するために,漸進的な合成データベンチマークを導入する。
提案するアテンション・フォーカス変換器とともに,複数の教師なしモデルを評価する。
提案モデルでは,提案手法の精度は最先端の解に匹敵するが,推論速度は向上する。
論文 参考訳(メタデータ) (2025-10-08T23:01:53Z) - CEReBrO: Compact Encoder for Representations of Brain Oscillations Using Efficient Alternating Attention [53.539020807256904]
交互注意(CEReBrO)を用いた脳振動の表現のための圧縮法について紹介する。
トークン化方式は、チャネルごとのパッチで脳波信号を表現します。
本研究では,チャネル内時間的ダイナミックスとチャネル間空間的相関を共同でモデル化し,通常の自己アテンションに比べて6倍少ないメモリで2倍の速度向上を実現するための注意機構を提案する。
論文 参考訳(メタデータ) (2025-01-18T21:44:38Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - CycleHOI: Improving Human-Object Interaction Detection with Cycle Consistency of Detection and Generation [37.45945633515955]
本稿では,人間と物体の相互作用(HOI)の検出性能を高めるために,CycleHOIという新しい学習フレームワークを提案する。
我々の鍵となる設計は、HOI検出器のトレーニングのための新しいサイクル整合性損失を導入することである。
我々は,CycleHOIの有効性と一般化力を検証するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-16T06:55:43Z) - An Attention-Based Deep Generative Model for Anomaly Detection in Industrial Control Systems [3.303448701376485]
異常検出は、産業制御システムの安全かつ信頼性の高い運用に不可欠である。
本稿では,このニーズを満たすための新しい深層生成モデルを提案する。
論文 参考訳(メタデータ) (2024-05-03T23:58:27Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System [7.1083241462091165]
我々は,光学的文字認識(OCR)を基本とする外部モダリティ誘導データマイニングフレームワークを導入し,画像から統計的特徴を抽出する。
提案手法の重要な側面は、単一のモーダル認識モデルを用いて抽出された外部モーダル特徴のアライメントであり、畳み込みニューラルネットワークによって符号化された画像特徴である。
本手法は欠陥検出モデルのリコール率を大幅に向上させ,挑戦シナリオにおいても高い堅牢性を維持する。
論文 参考訳(メタデータ) (2024-03-18T07:41:39Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - BDHT: Generative AI Enables Causality Analysis for Mild Cognitive Impairment [34.60961915466469]
軽度認知障害 (MCI) 解析に有効な接続性を推定するために, 階層型トランスフォーマー (BDHT) を用いた脳ディフューザを提案する。
提案手法は,既存手法に比べて精度と頑健性に優れる。
論文 参考訳(メタデータ) (2023-12-14T15:12:00Z) - ADT: Agent-based Dynamic Thresholding for Anomaly Detection [4.356615197661274]
本稿では,エージェントベースの動的しきい値処理(ADT)フレームワークを提案する。
本研究では,自動エンコーダを用いて特徴表現を取得し,複雑な入力データに対する異常スコアを生成する。
ADTはオートエンコーダの異常スコアを利用して閾値を適応的に調整することができる。
論文 参考訳(メタデータ) (2023-12-03T19:07:30Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Is Disentanglement enough? On Latent Representations for Controllable
Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。
VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-08-01T18:37:43Z) - DA-DETR: Domain Adaptive Detection Transformer with Information Fusion [53.25930448542148]
DA-DETRは、ラベル付きソースドメインからラベルなしターゲットドメインへの効果的な転送のための情報融合を導入するドメイン適応型オブジェクト検出変換器である。
本稿では,CNN機能とトランスフォーマー機能を融合した新しいCNN-Transformer Blender(CTBlender)を提案する。
CTBlenderはTransformer機能を使用して、高レベルの意味情報と低レベルの空間情報が融合した複数のスケールでCNN機能を変調し、正確な物体識別と位置決めを行う。
論文 参考訳(メタデータ) (2021-03-31T13:55:56Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。