論文の概要: RT-DETRv4: Painlessly Furthering Real-Time Object Detection with Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2510.25257v1
- Date: Wed, 29 Oct 2025 08:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.277642
- Title: RT-DETRv4: Painlessly Furthering Real-Time Object Detection with Vision Foundation Models
- Title(参考訳): RT-DETRv4:視覚基礎モデルによるリアルタイム物体検出の無痛化
- Authors: Zijun Liao, Yian Zhao, Xin Shan, Yu Yan, Chang Liu, Lei Lu, Xiangyang Ji, Jie Chen,
- Abstract要約: 軽量物体検出器の高効率化を目的とした,コスト効率・高適合性蒸留フレームワークを提案する。
当社のアプローチは、さまざまなDETRベースのモデルに対して、目立って一貫したパフォーマンス向上を実現しています。
我々の新しいモデルファミリーRT-DETRv4はCOCOの最先端結果を達成し、APスコアは49.7/53.5/55.4/57.0で、対応する速度は273/169/124/78 FPSである。
- 参考スコア(独自算出の注目度): 48.91205564876609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time object detection has achieved substantial progress through meticulously designed architectures and optimization strategies. However, the pursuit of high-speed inference via lightweight network designs often leads to degraded feature representation, which hinders further performance improvements and practical on-device deployment. In this paper, we propose a cost-effective and highly adaptable distillation framework that harnesses the rapidly evolving capabilities of Vision Foundation Models (VFMs) to enhance lightweight object detectors. Given the significant architectural and learning objective disparities between VFMs and resource-constrained detectors, achieving stable and task-aligned semantic transfer is challenging. To address this, on one hand, we introduce a Deep Semantic Injector (DSI) module that facilitates the integration of high-level representations from VFMs into the deep layers of the detector. On the other hand, we devise a Gradient-guided Adaptive Modulation (GAM) strategy, which dynamically adjusts the intensity of semantic transfer based on gradient norm ratios. Without increasing deployment and inference overhead, our approach painlessly delivers striking and consistent performance gains across diverse DETR-based models, underscoring its practical utility for real-time detection. Our new model family, RT-DETRv4, achieves state-of-the-art results on COCO, attaining AP scores of 49.7/53.5/55.4/57.0 at corresponding speeds of 273/169/124/78 FPS.
- Abstract(参考訳): リアルタイムオブジェクト検出は、慎重に設計されたアーキテクチャと最適化戦略を通じて、かなりの進歩を遂げた。
しかし、軽量ネットワーク設計による高速推論の追求は、しばしば機能表現の劣化を招き、さらなる性能向上とデバイス上での実用的展開を妨げる。
本稿では,Vision Foundation Models (VFM) の急速に発展する機能を活用し,軽量物体検出装置の高効率化を図るための,費用対効果が高く適応性の高い蒸留フレームワークを提案する。
VFMと資源制約された検出器との間の重要なアーキテクチャ的および学習目的の相違を考えると、安定的およびタスク整合的なセマンティックトランスファーを達成することは困難である。
これを解決するために,VFMからの高レベル表現を検出器の深い層に統合するディープ・セマンティック・インジェクタ(DSI)モジュールを導入する。
一方、グラディエント誘導適応変調(GAM)戦略を考案し、グラディエントノルム比に基づいて意味伝達の強度を動的に調整する。
デプロイメントと推論オーバーヘッドを増大させることなく、当社のアプローチは、さまざまなDETRベースのモデルに対して、目立って一貫したパフォーマンス向上を実現します。
我々の新しいモデルファミリーRT-DETRv4はCOCOの最先端結果を達成し、APスコアは49.7/53.5/55.4/57.0で、対応する速度は273/169/124/78 FPSである。
関連論文リスト
- Source-Free Object Detection with Detection Transformer [59.33653163035064]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースドメインから教師なしのターゲットドメインへの知識転送を可能にする。
ほとんどの既存のSFODアプローチは、より高速なR-CNNのような従来のオブジェクト検出(OD)モデルに限られるか、新しいODアーキテクチャ、特に検出変換器(DETR)に適合しない一般的なソリューションとして設計されている。
本稿では,DTRのクエリ中心の機能強化を特化して設計された新しいSFODフレームワークであるFeature Reweighting ANd Contrastive Learning NetworK(FRANCK)を紹介する。
論文 参考訳(メタデータ) (2025-10-13T07:35:04Z) - FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection [18.023418423273082]
本研究では,FMC-DETRを提案する。FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR。
まず、大域的低周波文脈知覚を高めるために、カスケードウェーブレット変換を適用したWavelet Kolmogorov-Arnold Transformer (WeKat) のバックボーンを導入する。
次に、軽量なクロスステージ部分核融合(CPF)モジュールは冗長性を低減し、マルチスケールの機能相互作用を改善する。
最後に,Multi-Domain Feature Coordination (MDFC)モジュールについて述べる。
論文 参考訳(メタデータ) (2025-09-27T02:28:22Z) - GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - YOLOatr : Deep Learning Based Automatic Target Detection and Localization in Thermal Infrared Imagery [0.0]
そこで我々は, YOLOatrと呼ばれるアンカー型単段検出器を改良し, 検出ヘッドを最適に修正し, 首の核融合, カスタム拡張プロファイルを提案する。
相関テストプロトコルと非相関テストプロトコルの両方を用いたリアルタイムATRのための総合的DSIAC MWIRデータセットの性能評価を行った。
論文 参考訳(メタデータ) (2025-07-15T12:41:01Z) - Fine-Tuning Florence2 for Enhanced Object Detection in Un-constructed Environments: Vision-Language Model Approach [0.0]
非構成の複雑な環境における物体検出タスクのためのFlorence2モデルを微調整した。
最適化されたFlorence2モデルでは、オブジェクト検出精度が大幅に向上した。
論文 参考訳(メタデータ) (2025-03-06T19:31:51Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。