論文の概要: Le-DETR: Revisiting Real-Time Detection Transformer with Efficient Encoder Design
- arxiv url: http://arxiv.org/abs/2602.21010v1
- Date: Tue, 24 Feb 2026 15:29:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.814819
- Title: Le-DETR: Revisiting Real-Time Detection Transformer with Efficient Encoder Design
- Title(参考訳): Le-DETR:効率的なエンコーダ設計によるリアルタイム検出変換器の再検討
- Authors: Jiannan Huang, Aditya Kane, Fengzhe Zhou, Yunchao Wei, Humphrey Shi,
- Abstract要約: 我々は Le-DETR (textbfLow- Cost and textbfEfficient textbfDEtection textbfTRansformer) を提案する。
ImageNet1KとCOCO 2017トレーニングデータセットのみを使用して、リアルタイム検出で新しいtextbfSOTAを実現する。
YOLOv12-L/X を textbf+0.6/-0.1 mAP で上回り、同様の速度と textbf+20% のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 72.55935017828891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time object detection is crucial for real-world applications as it requires high accuracy with low latency. While Detection Transformers (DETR) have demonstrated significant performance improvements, current real-time DETR models are challenging to reproduce from scratch due to excessive pre-training overheads on the backbone, constraining research advancements by hindering the exploration of novel backbone architectures. In this paper, we want to show that by using general good design, it is possible to have \textbf{high performance} with \textbf{low pre-training cost}. After a thorough study of the backbone architecture, we propose EfficientNAT at various scales, which incorporates modern efficient convolution and local attention mechanisms. Moreover, we re-design the hybrid encoder with local attention, significantly enhancing both performance and inference speed. Based on these advancements, we present Le-DETR (\textbf{L}ow-cost and \textbf{E}fficient \textbf{DE}tection \textbf{TR}ansformer), which achieves a new \textbf{SOTA} in real-time detection using only ImageNet1K and COCO2017 training datasets, saving about 80\% images in pre-training stage compared with previous methods. We demonstrate that with well-designed, real-time DETR models can achieve strong performance without the need for complex and computationally expensive pretraining. Extensive experiments show that Le-DETR-M/L/X achieves \textbf{52.9/54.3/55.1 mAP} on COCO Val2017 with \textbf{4.45/5.01/6.68 ms} on an RTX4090. It surpasses YOLOv12-L/X by \textbf{+0.6/-0.1 mAP} while achieving similar speed and \textbf{+20\%} speedup. Compared with DEIM-D-FINE, Le-DETR-M achieves \textbf{+0.2 mAP} with slightly faster inference, and surpasses DEIM-D-FINE-L by \textbf{+0.4 mAP} with only \textbf{0.4 ms} additional latency. Code and weights will be open-sourced.
- Abstract(参考訳): リアルタイムオブジェクト検出は、低レイテンシで高い精度を必要とするため、現実世界のアプリケーションには不可欠である。
検出トランスフォーマー(DETR)は大幅な性能向上を示したが、現在のリアルタイムDETRモデルは、バックボーンの過剰な事前学習オーバーヘッドのため、スクラッチから再現することが困難であり、新しいバックボーンアーキテクチャの探索を妨げて研究の進歩を制限している。
本稿では,一般の良質な設計を用いることで,事前学習に要するコストを低減した「textbf{high performance}」が実現可能であることを示す。
バックボーンアーキテクチャの徹底的な研究の後、現代の効率的な畳み込みと局所的な注意機構を取り入れた、様々なスケールでの効率的なNATを提案する。
さらに、局所的な注意を払ってハイブリッドエンコーダを再設計し、性能と推論速度を著しく向上させる。
これらの進歩に基づき,L-DETR (\textbf{L}ow-cost and \textbf{E}fficient \textbf{DE}tection \textbf{TR}ansformer) を提案する。
設計が整ったリアルタイムDETRモデルでは,複雑で計算コストのかかる事前学習を必要とせず,高い性能が得られることを示す。
大規模な実験により、Le-DETR-M/L/X は COCO Val2017 上で \textbf{52.9/54.3/55.1 mAP} を RTX4090 上で \textbf{4.45/5.01/6.68 ms} で達成した。
YOLOv12-L/X を \textbf{+0.6/-0.1 mAP} で上回り、同様の速度と \textbf{+20\%} のスピードアップを達成する。
DEIM-D-FINEと比較すると、Le-DETR-M は少し高速な推論で \textbf{+0.2 mAP} を達成し、さらに \textbf{+0.4 mAP} で DEIM-D-FINE-L を超える。
コードと重みはオープンソースになる。
関連論文リスト
- RTS-Mono: A Real-Time Self-Supervised Monocular Depth Estimation Method for Real-World Deployment [10.19871006168469]
RTS-Monoは軽量で効率的なエンコーダデコーダアーキテクチャである。
最新技術(SoTA)のパフォーマンスを高解像度および低解像度で達成する。
Nvidia Jetson Orinで49 FPSの速度でリアルタイムの推論を行うことができる。
論文 参考訳(メタデータ) (2025-11-18T03:47:04Z) - PPMStereo: Pick-and-Play Memory Construction for Consistent Dynamic Stereo Matching [51.98089287914147]
textbfPick-and-textbflay textbfMemory (PM) construction module for dynamic bfStereo matching, called bftextPPMStereo。
bftextPPMStereo と呼ばれる動的 bfStereo マッチングのための textbfPick-and-textbflay textbfMemory (PM) 構築モジュールを提案する。
論文 参考訳(メタデータ) (2025-10-23T03:52:39Z) - PiT: Progressive Diffusion Transformer [50.46345527963736]
拡散変換器(DiT)は変換器アーキテクチャを用いて画像生成において顕著な性能を発揮する。
DiTは以前信じられていたようなグローバルな情報に大きく依存していない。
Pseudo Progressive Diffusion Transformer (PiT)を提案する。
論文 参考訳(メタデータ) (2025-05-19T15:02:33Z) - DEIM: DETR with Improved Matching for Fast Convergence [28.24665757155962]
我々は,Transformer-based architectures (DETR) を用いたリアルタイムオブジェクト検出における収束の促進を目的としたトレーニングフレームワークDEIMを紹介する。
DETRモデルにおける1対1(O2O)マッチングに固有のスパース監督を緩和するため、DEIMはDense O2Oマッチング戦略を採用している。
Dense O2Oマッチングはコンバージェンスを高速化する一方、パフォーマンスに影響を与える可能性のある低品質のマッチも多数導入されている。
論文 参考訳(メタデータ) (2024-12-05T15:10:13Z) - RMT: Retentive Networks Meet Vision Transformers [55.76528783956601]
近年,ビジョントランスフォーマー (ViT) がコンピュータビジョンコミュニティで注目を集めている。
自己注意は空間的先行性に欠け、二次的な計算複雑性を持つ。
一般的な目的のために,空間的に明瞭なバックボーンを持つ強力な視覚バックボーンであるRTTを提案する。
論文 参考訳(メタデータ) (2023-09-20T00:57:48Z) - Adaptive Sparsity Level during Training for Efficient Time Series Forecasting with Transformers [20.23085795744602]
textbfAdaptive textbfSparsity textbfPALS(textbfPALS)を提案する。
PALSはスパーストレーニングとトレーニングの方法からインスピレーションを得ている。
スパースニューラルネットワークのトレーニングにおいて、新しい"拡張"メカニズムを導入し、モデルを動的に縮小、拡張、あるいは安定して適切なスパースレベルを見つけることを可能にする。
論文 参考訳(メタデータ) (2023-05-28T06:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。