論文の概要: RF-DETR: Neural Architecture Search for Real-Time Detection Transformers
- arxiv url: http://arxiv.org/abs/2511.09554v1
- Date: Thu, 13 Nov 2025 02:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.621895
- Title: RF-DETR: Neural Architecture Search for Real-Time Detection Transformers
- Title(参考訳): RF-DETR:リアルタイム検出変換器のニューラルネットワーク探索
- Authors: Isaac Robinson, Peter Robicheaux, Matvei Popov, Deva Ramanan, Neehar Peri,
- Abstract要約: RF-DETRは軽量な特殊検出変換器である。
我々のアプローチは、ターゲットデータセット上にトレーニング済みのベースネットワークを微調整する。
我々はNASの"tunable knobs"を再検討し、多様なターゲットドメインへのDETRの転送性を改善する。
- 参考スコア(独自算出の注目度): 42.015879164246805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary detectors achieve impressive performance on COCO, but often fail to generalize to real-world datasets with out-of-distribution classes not typically found in their pre-training. Rather than simply fine-tuning a heavy-weight vision-language model (VLM) for new domains, we introduce RF-DETR, a light-weight specialist detection transformer that discovers accuracy-latency Pareto curves for any target dataset with weight-sharing neural architecture search (NAS). Our approach fine-tunes a pre-trained base network on a target dataset and evaluates thousands of network configurations with different accuracy-latency tradeoffs without re-training. Further, we revisit the "tunable knobs" for NAS to improve the transferability of DETRs to diverse target domains. Notably, RF-DETR significantly improves on prior state-of-the-art real-time methods on COCO and Roboflow100-VL. RF-DETR (nano) achieves 48.0 AP on COCO, beating D-FINE (nano) by 5.3 AP at similar latency, and RF-DETR (2x-large) outperforms GroundingDINO (tiny) by 1.2 AP on Roboflow100-VL while running 20x as fast. To the best of our knowledge, RF-DETR (2x-large) is the first real-time detector to surpass 60 AP on COCO. Our code is at https://github.com/roboflow/rf-detr
- Abstract(参考訳): オープンボキャブラリ検出器はCOCO上で印象的な性能を達成するが、通常トレーニング前のクラスでは見られない分布外のクラスを持つ実世界のデータセットへの一般化に失敗することが多い。
新しいドメインに対する重み付き視覚言語モデル(VLM)を単純に微調整するのではなく、重み付きニューラルネットワークサーチ(NAS)を用いた任意のターゲットデータセットに対して精度の高いパレート曲線を検出する、軽量なスペシャリスト検出変換器であるRF-DETRを導入する。
提案手法は,ターゲットデータセット上に事前トレーニングされたベースネットワークを微調整し,再トレーニングを行わずに,精度-遅延トレードオフの異なる数千のネットワーク構成を評価する。
さらに、NAS の "tunable knobs" を再検討し、多様なターゲットドメインへの DETR の転送性を改善する。
特に、RF-DETRはCOCOおよびRoboflow100-VLにおける最先端のリアルタイム手法を大幅に改善する。
RF-DETR(nano)はCOCO上で48.0 APを獲得し、同様のレイテンシでD-FINE(nano)を5.3 APで上回り、RF-DETR(2x-large)はRoboflow100-VLで1.2 APでグラウンディングディノ(tiny)を上回り、20倍高速で走る。
我々の知る限りでは、RF-DETR (2x-large) はCOCO上で60 APを超えた初めてのリアルタイム検出器である。
私たちのコードはhttps://github.com/roboflow/rf-detrにあります。
関連論文リスト
- Few-shot NeRF by Adaptive Rendering Loss Regularization [78.50710219013301]
スパース入力を用いた新しいビュー合成はニューラルラジアンス場(NeRF)に大きな課題をもたらす
近年の研究では、位置レンダリングの周波数規則化は、数発のNeRFに対して有望な結果が得られることが示されている。
我々は,AR-NeRFと呼ばれる数発のNeRFに対して適応レンダリング損失正規化を提案する。
論文 参考訳(メタデータ) (2024-10-23T13:05:26Z) - DETRs Beat YOLOs on Real-time Object Detection [5.426236055184119]
YOLOシリーズは、速度と精度のトレードオフにより、リアルタイムオブジェクト検出の最も一般的なフレームワークとなっている。
近年、エンドツーエンドのTransformer-based detector (DETR) は、NMSを除去する代替手段を提供している。
本稿では,初のリアルタイム終端物体検出装置であるリアルタイム検出TRansformer(RT-DETR)を提案する。
論文 参考訳(メタデータ) (2023-04-17T08:30:02Z) - Data-Driven Target Localization Using Adaptive Radar Processing and Convolutional Neural Networks [18.50309014013637]
本稿では,アダプティブレーダ検出後のレーダターゲット位置推定を改善するためのデータ駆動方式を提案する。
我々は、正規化適応整合フィルタ(NAMF)のレーダリターン、範囲、方位(およびドップラー)から熱マップテンソルを生成する。
次に、これらの熱マップテンソルからターゲット位置を推定するために回帰畳み込みニューラルネットワーク(CNN)を訓練する。
論文 参考訳(メタデータ) (2022-09-07T02:23:40Z) - Differentiable Architecture Search with Random Features [80.31916993541513]
微分可能なアーキテクチャサーチ (DARTS) は、探索効率と効率性からNAS技術の発展を著しく促進してきたが、性能の低下に悩まされている。
本稿では,BatchNormのトレーニングのみによるDARTSの性能崩壊問題を軽減するための取り組みを行う。
論文 参考訳(メタデータ) (2022-08-18T13:55:27Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - Anchor-free Oriented Proposal Generator for Object Detection [59.54125119453818]
オブジェクト指向物体検出はリモートセンシング画像解釈において実用的で困難な課題である。
今日では、指向性検出器は主に水平方向の箱を中間体として使用し、それらから指向性のある箱を導出している。
本稿では,ネットワークアーキテクチャから水平ボックス関連操作を放棄する,AOPG(Anchor-free Oriented Proposal Generator)を提案する。
論文 参考訳(メタデータ) (2021-10-05T10:45:51Z) - Radio Frequency Fingerprint Identification for LoRa Using Spectrogram
and CNN [12.931829749208097]
スペクトログラムと畳み込みニューラルネットワーク(CNN)に基づくLong Range (LoRa)システムのRFFI方式を設計した。
当社のスペクトログラムベースのスキームは、最高の分類精度、すなわち、20 LoRa DUTの97.61%に達することができます。
論文 参考訳(メタデータ) (2020-12-30T17:17:47Z) - REST: Robust and Efficient Neural Networks for Sleep Monitoring in the
Wild [62.36144064259933]
ニューラルネットワークの逆トレーニングとLipschitz定数の制御を通じて、両問題に同時に対処する新しい方法であるRESTを提案する。
私たちは、RESTがノイズの存在下で、オリジナルのフルサイズのモデルを大幅に上回る、ロバストで効率的なモデルを生成することを実証しています。
これらのモデルをスマートフォン上のAndroidアプリケーションにデプロイすることにより、RESTによってモデルが最大17倍のエネルギー削減と9倍高速な推論を達成することができることを定量的に観察する。
論文 参考訳(メタデータ) (2020-01-29T17:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。