論文の概要: RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer
- arxiv url: http://arxiv.org/abs/2407.17140v1
- Date: Wed, 24 Jul 2024 10:20:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 14:14:00.036553
- Title: RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer
- Title(参考訳): RT-DETRv2:リアルタイム検出変換器のためのバグオブフリービーによるベースライン改善
- Authors: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu,
- Abstract要約: RT-DETRv2は以前の最先端のリアルタイム検出器RT-DETR上に構築されている。
柔軟性を向上させるために,異なるスケールの特徴に対して,異なる数のサンプリングポイントを設定することを提案する。
実用性を高めるため, Grid_sample演算子を置き換えるために,任意の離散サンプリング演算子を提案する。
- 参考スコア(独自算出の注目度): 2.1186155813156926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present RT-DETRv2, an improved Real-Time DEtection TRansformer (RT-DETR). RT-DETRv2 builds upon the previous state-of-the-art real-time detector, RT-DETR, and opens up a set of bag-of-freebies for flexibility and practicality, as well as optimizing the training strategy to achieve enhanced performance. To improve the flexibility, we suggest setting a distinct number of sampling points for features at different scales in the deformable attention to achieve selective multi-scale feature extraction by the decoder. To enhance practicality, we propose an optional discrete sampling operator to replace the grid_sample operator that is specific to RT-DETR compared to YOLOs. This removes the deployment constraints typically associated with DETRs. For the training strategy, we propose dynamic data augmentation and scale-adaptive hyperparameters customization to improve performance without loss of speed. Source code and pre-trained models will be available at https://github.com/lyuwenyu/RT-DETR.
- Abstract(参考訳): 本稿では,RT-DETR TRansformer (RT-DETR) の改良版 RT-DETRv2 を提案する。
RT-DETRv2は、従来の最先端リアルタイム検出器RT-DETR上に構築され、柔軟性と実用性のための一連のフリービーを開放するとともに、トレーニング戦略を最適化し、性能の向上を実現している。
フレキシビリティを向上させるために,デコーダによって選択的なマルチスケール特徴抽出を実現するために,変形可能な注目度において異なるスケールの特徴に対して,異なる数のサンプリングポイントを設定することを提案する。
実用性を高めるため,RT-DETR に特有の Grid_sample 演算子を YOLO に置き換える,任意の離散サンプリング演算子を提案する。
これにより、一般的にDETRに関連するデプロイメントの制約が取り除かれる。
トレーニング戦略として,速度を落とさずに性能を向上させるため,動的データ拡張とスケール適応型ハイパーパラメータのカスタマイズを提案する。
ソースコードと事前訓練されたモデルはhttps://github.com/lyuwenyu/RT-DETR.comで入手できる。
関連論文リスト
- ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - UL-VIO: Ultra-lightweight Visual-Inertial Odometry with Noise Robust Test-time Adaptation [12.511829774226113]
視覚-慣性整合性に基づくテスト時間適応(TTA)が可能な超軽量 (1M) 視覚慣性オドメトリー (VIO) ネットワークを提案する。
KITTIデータセットで1分間のエラー増加 – 1% – で、最先端のネットワークサイズよりも36倍小さなネットワークサイズを実現している。
論文 参考訳(メタデータ) (2024-09-19T22:24:14Z) - RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision [7.721101317599364]
本稿では,RT-DETRv3というRT-DETRに基づく階層的な正の監督手法を提案する。
本稿では,デコーダ訓練の不十分さに対処するため,自己意図的摂動を含む新たな学習戦略を提案する。
RT-DETRv3は、RT-DETRシリーズやYOLOシリーズなど、既存のリアルタイム検出器よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-09-13T02:02:07Z) - Cascaded Temporal Updating Network for Efficient Video Super-Resolution [47.63267159007611]
リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。
本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。
CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2024-08-26T12:59:32Z) - LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection [63.780355815743135]
リアルタイム物体検出においてYOLOよりも優れた軽量検出変換器LW-DETRを提案する。
アーキテクチャは、ViTエンコーダ、プロジェクタ、浅いDETRデコーダの単純なスタックである。
論文 参考訳(メタデータ) (2024-06-05T17:07:24Z) - VTR: An Optimized Vision Transformer for SAR ATR Acceleration on FPGA [2.8595179027282907]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンアプリケーションにおける最先端技術である。
我々は、事前トレーニングなしで、小さなデータセットで直接トレーニングできる軽量なViTモデルを開発した。
我々は,VTR (ViT for SAR ATR) と呼ぶ提案モデルを,広く使用されている3つのSARデータセット上で評価した。
論文 参考訳(メタデータ) (2024-04-06T06:49:55Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Dynamic PlenOctree for Adaptive Sampling Refinement in Explicit NeRF [6.135925201075925]
PlenOctree DOTは,シーンの複雑さの変化に対応するために,サンプル分布を適応的に改良する。
POTと比較して、私たちのDOTは視覚的品質を高め、パラメータを55.15ドル/68.84%以上削減し、NeRF合成とタンクにそれぞれ1.7/1.9 FPSを提供する。
論文 参考訳(メタデータ) (2023-07-28T06:21:42Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。