論文の概要: DEIM: DETR with Improved Matching for Fast Convergence
- arxiv url: http://arxiv.org/abs/2412.04234v1
- Date: Thu, 05 Dec 2024 15:10:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:42:17.260268
- Title: DEIM: DETR with Improved Matching for Fast Convergence
- Title(参考訳): DEIM: 高速収束のためのマッチングを改善したDETR
- Authors: Shihua Huang, Zhichao Lu, Xiaodong Cun, Yongjun Yu, Xiao Zhou, Xi Shen,
- Abstract要約: 我々は,Transformer-based architectures (DETR) を用いたリアルタイムオブジェクト検出における収束の促進を目的としたトレーニングフレームワークDEIMを紹介する。
DETRモデルにおける1対1(O2O)マッチングに固有のスパース監督を緩和するため、DEIMはDense O2Oマッチング戦略を採用している。
Dense O2Oマッチングはコンバージェンスを高速化する一方、パフォーマンスに影響を与える可能性のある低品質のマッチも多数導入されている。
- 参考スコア(独自算出の注目度): 28.24665757155962
- License:
- Abstract: We introduce DEIM, an innovative and efficient training framework designed to accelerate convergence in real-time object detection with Transformer-based architectures (DETR). To mitigate the sparse supervision inherent in one-to-one (O2O) matching in DETR models, DEIM employs a Dense O2O matching strategy. This approach increases the number of positive samples per image by incorporating additional targets, using standard data augmentation techniques. While Dense O2O matching speeds up convergence, it also introduces numerous low-quality matches that could affect performance. To address this, we propose the Matchability-Aware Loss (MAL), a novel loss function that optimizes matches across various quality levels, enhancing the effectiveness of Dense O2O. Extensive experiments on the COCO dataset validate the efficacy of DEIM. When integrated with RT-DETR and D-FINE, it consistently boosts performance while reducing training time by 50%. Notably, paired with RT-DETRv2, DEIM achieves 53.2% AP in a single day of training on an NVIDIA 4090 GPU. Additionally, DEIM-trained real-time models outperform leading real-time object detectors, with DEIM-D-FINE-L and DEIM-D-FINE-X achieving 54.7% and 56.5% AP at 124 and 78 FPS on an NVIDIA T4 GPU, respectively, without the need for additional data. We believe DEIM sets a new baseline for advancements in real-time object detection. Our code and pre-trained models are available at https://github.com/ShihuaHuang95/DEIM.
- Abstract(参考訳): 我々は,Transformer-based architectures (DETR) を用いたリアルタイムオブジェクト検出における収束の促進を目的とした,革新的で効率的なトレーニングフレームワークDEIMを紹介する。
DETRモデルにおける1対1(O2O)マッチングに固有のスパース監督を緩和するため、DEIMはDense O2Oマッチング戦略を採用している。
このアプローチは、標準データ拡張技術を用いて、追加のターゲットを組み込むことにより、画像当たりの正のサンプル数を増加させる。
Dense O2Oマッチングはコンバージェンスを高速化する一方、パフォーマンスに影響を与える可能性のある低品質のマッチも多数導入されている。
そこで我々は,MAL(Matchability-Aware Loss)を提案する。これは様々な品質レベルのマッチングを最適化し,Dense O2Oの有効性を高める新しい損失関数である。
COCOデータセットの大規模な実験により、DeIMの有効性が検証された。
RT-DETRやD-FINEと統合すると、トレーニング時間を50%削減しながら、継続的にパフォーマンスを向上する。
特にRT-DETRv2と組み合わせて、DeIMはNVIDIA 4090 GPUで1日のトレーニングで53.2%APを達成した。
DEIM-D-FINE-L と DEIM-D-FINE-X は 54.7% と 56.5% AP を 124 と 78 FPS の NVIDIA T4 GPU で達成し、追加データを必要としない。
我々は,DEMがリアルタイム物体検出の進歩に新たなベースラインを設定できると考えている。
私たちのコードと事前トレーニングされたモデルはhttps://github.com/ShihuaHuang95/DEIM.comで公開されています。
関連論文リスト
- YOLOv4: A Breakthrough in Real-Time Object Detection [0.0]
YOLOv4は様々なシナリオにおいて優れた検出を実現し、Tesla V100では毎秒65フレームで43.5%APを達成した。
論文 参考訳(メタデータ) (2025-02-06T15:45:18Z) - D-FINE: Redefine Regression Task in DETRs as Fine-grained Distribution Refinement [37.78880948551719]
D-FINEは、優れた位置決め精度を実現する強力なリアルタイム物体検出器である。
D-FINEは、FDRとGlobal Optimal Localization Self-Distillation(GO-LSD)の2つの重要なコンポーネントから構成される。
Objects365で事前訓練された場合、D-FINE-L / Xは57.1% / 59.3%APとなり、既存のリアルタイム検出器を全て上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:57:01Z) - DEYOv3: DETR with YOLO for Real-time Object Detection [0.0]
ステップ・バイ・ステップ・トレーニング(Step-by-step training)と呼ばれる新しいトレーニング手法を提案する。
第1段階では、一対多で事前訓練されたYOLO検出器を使用して、エンドツーエンド検出器を初期化する。
第2段階では、バックボーンとエンコーダはDETRのようなモデルと一致しているが、検出器のみをゼロから訓練する必要がある。
論文 参考訳(メタデータ) (2023-09-21T07:49:07Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - DETRs Beat YOLOs on Real-time Object Detection [5.426236055184119]
YOLOシリーズは、速度と精度のトレードオフにより、リアルタイムオブジェクト検出の最も一般的なフレームワークとなっている。
近年、エンドツーエンドのTransformer-based detector (DETR) は、NMSを除去する代替手段を提供している。
本稿では,初のリアルタイム終端物体検出装置であるリアルタイム検出TRansformer(RT-DETR)を提案する。
論文 参考訳(メタデータ) (2023-04-17T08:30:02Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - EAutoDet: Efficient Architecture Search for Object Detection [110.99532343155073]
EAutoDetフレームワークは、1.4GPU日でオブジェクト検出のための実用的なバックボーンとFPNアーキテクチャを検出できる。
本稿では,一方のエッジ上での候補演算の重みを共有し,それらを一つの畳み込みに集約することでカーネル再利用手法を提案する。
特に、発見されたアーキテクチャは最先端のオブジェクト検出NAS法を超越し、120 FPSで40.1 mAP、49.2 mAP、41.3 FPSをCOCOテストデブセットで達成している。
論文 参考訳(メタデータ) (2022-03-21T05:56:12Z) - Fast Convergence of DETR with Spatially Modulated Co-Attention [83.19863907905666]
本論文では,Spatially Modulated Co-Attention (SMCA) 機構を用いた検出トランスフォーマーフレームワークの簡便かつ効果的な改善手法を提案する。
提案するSMCAはデコーダの本来のコアテンション機構を置き換えることでDTRの収束速度を向上する。
拡張畳み込みベースのバックボーンを持つDETRと比較して, 完全知識のSMCAの方が優れた性能が得られる。
論文 参考訳(メタデータ) (2021-01-19T03:52:44Z) - Dynamic R-CNN: Towards High Quality Object Detection via Dynamic
Training [70.2914594796002]
ラベル割り当て基準と回帰損失関数の形状を調整するための動的R-CNNを提案する。
我々はResNet-50-FPNベースラインを1.9%のAPと5.5%のAP$_90$で改善し、余分なオーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2020-04-13T15:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。