論文の概要: Le-DETR: Revisiting Real-Time Detection Transformer with Efficient Encoder Design
- arxiv url: http://arxiv.org/abs/2602.21010v1
- Date: Tue, 24 Feb 2026 15:29:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.814819
- Title: Le-DETR: Revisiting Real-Time Detection Transformer with Efficient Encoder Design
- Title(参考訳): Le-DETR:効率的なエンコーダ設計によるリアルタイム検出変換器の再検討
- Authors: Jiannan Huang, Aditya Kane, Fengzhe Zhou, Yunchao Wei, Humphrey Shi,
- Abstract要約: 我々は Le-DETR (textbfLow- Cost and textbfEfficient textbfDEtection textbfTRansformer) を提案する。
ImageNet1KとCOCO 2017トレーニングデータセットのみを使用して、リアルタイム検出で新しいtextbfSOTAを実現する。
YOLOv12-L/X を textbf+0.6/-0.1 mAP で上回り、同様の速度と textbf+20% のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 72.55935017828891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time object detection is crucial for real-world applications as it requires high accuracy with low latency. While Detection Transformers (DETR) have demonstrated significant performance improvements, current real-time DETR models are challenging to reproduce from scratch due to excessive pre-training overheads on the backbone, constraining research advancements by hindering the exploration of novel backbone architectures. In this paper, we want to show that by using general good design, it is possible to have \textbf{high performance} with \textbf{low pre-training cost}. After a thorough study of the backbone architecture, we propose EfficientNAT at various scales, which incorporates modern efficient convolution and local attention mechanisms. Moreover, we re-design the hybrid encoder with local attention, significantly enhancing both performance and inference speed. Based on these advancements, we present Le-DETR (\textbf{L}ow-cost and \textbf{E}fficient \textbf{DE}tection \textbf{TR}ansformer), which achieves a new \textbf{SOTA} in real-time detection using only ImageNet1K and COCO2017 training datasets, saving about 80\% images in pre-training stage compared with previous methods. We demonstrate that with well-designed, real-time DETR models can achieve strong performance without the need for complex and computationally expensive pretraining. Extensive experiments show that Le-DETR-M/L/X achieves \textbf{52.9/54.3/55.1 mAP} on COCO Val2017 with \textbf{4.45/5.01/6.68 ms} on an RTX4090. It surpasses YOLOv12-L/X by \textbf{+0.6/-0.1 mAP} while achieving similar speed and \textbf{+20\%} speedup. Compared with DEIM-D-FINE, Le-DETR-M achieves \textbf{+0.2 mAP} with slightly faster inference, and surpasses DEIM-D-FINE-L by \textbf{+0.4 mAP} with only \textbf{0.4 ms} additional latency. Code and weights will be open-sourced.
- Abstract(参考訳): リアルタイムオブジェクト検出は、低レイテンシで高い精度を必要とするため、現実世界のアプリケーションには不可欠である。
検出トランスフォーマー(DETR)は大幅な性能向上を示したが、現在のリアルタイムDETRモデルは、バックボーンの過剰な事前学習オーバーヘッドのため、スクラッチから再現することが困難であり、新しいバックボーンアーキテクチャの探索を妨げて研究の進歩を制限している。
本稿では,一般の良質な設計を用いることで,事前学習に要するコストを低減した「textbf{high performance}」が実現可能であることを示す。
バックボーンアーキテクチャの徹底的な研究の後、現代の効率的な畳み込みと局所的な注意機構を取り入れた、様々なスケールでの効率的なNATを提案する。
さらに、局所的な注意を払ってハイブリッドエンコーダを再設計し、性能と推論速度を著しく向上させる。
これらの進歩に基づき,L-DETR (\textbf{L}ow-cost and \textbf{E}fficient \textbf{DE}tection \textbf{TR}ansformer) を提案する。
設計が整ったリアルタイムDETRモデルでは,複雑で計算コストのかかる事前学習を必要とせず,高い性能が得られることを示す。
大規模な実験により、Le-DETR-M/L/X は COCO Val2017 上で \textbf{52.9/54.3/55.1 mAP} を RTX4090 上で \textbf{4.45/5.01/6.68 ms} で達成した。
YOLOv12-L/X を \textbf{+0.6/-0.1 mAP} で上回り、同様の速度と \textbf{+20\%} のスピードアップを達成する。
DEIM-D-FINEと比較すると、Le-DETR-M は少し高速な推論で \textbf{+0.2 mAP} を達成し、さらに \textbf{+0.4 mAP} で DEIM-D-FINE-L を超える。
コードと重みはオープンソースになる。
関連論文リスト
- Lightweight Test-Time Adaptation for EMG-Based Gesture Recognition [2.414036142474149]
本稿では,TCNバックボーンを用いたテスト時間適応(TTA)のための軽量フレームワークを提案する。
本稿では, リアルタイム統計アライメントのための因果適応バッチ正規化, (ii) ガウス混合モデル(GMM)アライメント, (iii) 迅速な数ショットキャリブレーションのためのメタラーニングの3つの展開対応戦略を紹介する。
評価の結果,経験再生更新は限られたデータの下では優れた安定性を示し,メタラーニングは1ショットと2ショットのレギュレーションにおいて競争性能を達成していることがわかった。
論文 参考訳(メタデータ) (2026-01-07T18:48:31Z) - YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection [26.013463778761317]
YOLO-Masterは、リアルタイムオブジェクト検出のためのインスタンス条件適応計算を導入する、YOLOライクな新しいフレームワークである。
我々のモデルは1.62msのレイテンシで42.4%のAPを達成し、YOLOv13-Nを+0.8% mAPで上回り、17.8%高速化した。
論文 参考訳(メタデータ) (2025-12-29T07:54:49Z) - RTS-Mono: A Real-Time Self-Supervised Monocular Depth Estimation Method for Real-World Deployment [10.19871006168469]
RTS-Monoは軽量で効率的なエンコーダデコーダアーキテクチャである。
最新技術(SoTA)のパフォーマンスを高解像度および低解像度で達成する。
Nvidia Jetson Orinで49 FPSの速度でリアルタイムの推論を行うことができる。
論文 参考訳(メタデータ) (2025-11-18T03:47:04Z) - PPMStereo: Pick-and-Play Memory Construction for Consistent Dynamic Stereo Matching [51.98089287914147]
textbfPick-and-textbflay textbfMemory (PM) construction module for dynamic bfStereo matching, called bftextPPMStereo。
bftextPPMStereo と呼ばれる動的 bfStereo マッチングのための textbfPick-and-textbflay textbfMemory (PM) 構築モジュールを提案する。
論文 参考訳(メタデータ) (2025-10-23T03:52:39Z) - Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。
我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。
我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文 参考訳(メタデータ) (2025-06-03T06:02:50Z) - Output Scaling: YingLong-Delayed Chain of Thought in a Large Pretrained Time Series Forecasting Model [55.25659103706409]
このフレームワークは,設計した基盤モデルであるYingLongの最先端性能を実現する。
YingLongは、マスク付きトークンリカバリによってトレーニングされた非因果的双方向アテンションエンコーダのみのトランスフォーマーである。
我々は、6Mから3Mパラメータの4つの基礎モデルをリリースし、ゼロショットタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2025-05-20T14:31:06Z) - PiT: Progressive Diffusion Transformer [50.46345527963736]
拡散変換器(DiT)は変換器アーキテクチャを用いて画像生成において顕著な性能を発揮する。
DiTは以前信じられていたようなグローバルな情報に大きく依存していない。
Pseudo Progressive Diffusion Transformer (PiT)を提案する。
論文 参考訳(メタデータ) (2025-05-19T15:02:33Z) - TSPulse: Dual Space Tiny Pre-Trained Models for Rapid Time-Series Analysis [12.034816114258803]
TSPulseは、1Mパラメータしか持たない超コンパクトな時系列事前訓練モデルである。
分類、異常検出、インプット、検索タスクで強く機能する。
結果は100Mパラメータ(既存のSOTAモデルより10-100倍小さい)で達成される。
論文 参考訳(メタデータ) (2025-05-19T12:18:53Z) - Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - DEIM: DETR with Improved Matching for Fast Convergence [28.24665757155962]
我々は,Transformer-based architectures (DETR) を用いたリアルタイムオブジェクト検出における収束の促進を目的としたトレーニングフレームワークDEIMを紹介する。
DETRモデルにおける1対1(O2O)マッチングに固有のスパース監督を緩和するため、DEIMはDense O2Oマッチング戦略を採用している。
Dense O2Oマッチングはコンバージェンスを高速化する一方、パフォーマンスに影響を与える可能性のある低品質のマッチも多数導入されている。
論文 参考訳(メタデータ) (2024-12-05T15:10:13Z) - RMT: Retentive Networks Meet Vision Transformers [55.76528783956601]
近年,ビジョントランスフォーマー (ViT) がコンピュータビジョンコミュニティで注目を集めている。
自己注意は空間的先行性に欠け、二次的な計算複雑性を持つ。
一般的な目的のために,空間的に明瞭なバックボーンを持つ強力な視覚バックボーンであるRTTを提案する。
論文 参考訳(メタデータ) (2023-09-20T00:57:48Z) - Adaptive Sparsity Level during Training for Efficient Time Series Forecasting with Transformers [20.23085795744602]
textbfAdaptive textbfSparsity textbfPALS(textbfPALS)を提案する。
PALSはスパーストレーニングとトレーニングの方法からインスピレーションを得ている。
スパースニューラルネットワークのトレーニングにおいて、新しい"拡張"メカニズムを導入し、モデルを動的に縮小、拡張、あるいは安定して適切なスパースレベルを見つけることを可能にする。
論文 参考訳(メタデータ) (2023-05-28T06:57:27Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - Conditional DETR for Fast Training Convergence [76.95358216461524]
高速DETRトレーニングのための条件付きクロスアテンション機構を提案する。
当社のアプローチは,DeTRにおけるクロスアテンションが,四つの極端をローカライズするためのコンテンツ埋め込みに大きく依存していることに動機づけられている。
本研究では, バックボーンR50, R101では条件DTRが6.7倍, バックボーンDC5-R50, DC5-R101では10倍の速度で収束することを示す。
論文 参考訳(メタデータ) (2021-08-13T10:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。