Fugu-MT 論文翻訳(概要): RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer

論文の概要: RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer

arxiv url: http://arxiv.org/abs/2407.17140v1
Date: Wed, 24 Jul 2024 10:20:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-25 14:14:00.036553
Title: RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer
Title（参考訳）: RT-DETRv2:リアルタイム検出変換器のためのバグオブフリービーによるベースライン改善
Authors: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu,
Abstract要約: RT-DETRv2は以前の最先端のリアルタイム検出器RT-DETR上に構築されている。柔軟性を向上させるために,異なるスケールの特徴に対して,異なる数のサンプリングポイントを設定することを提案する。実用性を高めるため, Grid_sample演算子を置き換えるために,任意の離散サンプリング演算子を提案する。
参考スコア（独自算出の注目度）: 2.1186155813156926
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this report, we present RT-DETRv2, an improved Real-Time DEtection TRansformer (RT-DETR). RT-DETRv2 builds upon the previous state-of-the-art real-time detector, RT-DETR, and opens up a set of bag-of-freebies for flexibility and practicality, as well as optimizing the training strategy to achieve enhanced performance. To improve the flexibility, we suggest setting a distinct number of sampling points for features at different scales in the deformable attention to achieve selective multi-scale feature extraction by the decoder. To enhance practicality, we propose an optional discrete sampling operator to replace the grid_sample operator that is specific to RT-DETR compared to YOLOs. This removes the deployment constraints typically associated with DETRs. For the training strategy, we propose dynamic data augmentation and scale-adaptive hyperparameters customization to improve performance without loss of speed. Source code and pre-trained models will be available at https://github.com/lyuwenyu/RT-DETR.
Abstract（参考訳）: 本稿では,RT-DETR TRansformer (RT-DETR) の改良版 RT-DETRv2 を提案する。 RT-DETRv2は、従来の最先端リアルタイム検出器RT-DETR上に構築され、柔軟性と実用性のための一連のフリービーを開放するとともに、トレーニング戦略を最適化し、性能の向上を実現している。フレキシビリティを向上させるために,デコーダによって選択的なマルチスケール特徴抽出を実現するために,変形可能な注目度において異なるスケールの特徴に対して,異なる数のサンプリングポイントを設定することを提案する。実用性を高めるため,RT-DETR に特有の Grid_sample 演算子を YOLO に置き換える,任意の離散サンプリング演算子を提案する。これにより、一般的にDETRに関連するデプロイメントの制約が取り除かれる。トレーニング戦略として,速度を落とさずに性能を向上させるため,動的データ拡張とスケール適応型ハイパーパラメータのカスタマイズを提案する。ソースコードと事前訓練されたモデルはhttps://github.com/lyuwenyu/RT-DETR.comで入手できる。

関連論文リスト

AdaptSR: Low-Rank Adaptation for Efficient and Scalable Real-World Super-Resolution [50.584551250242235]
AdaptSRは、現実世界のタスクにバイキュービックトレーニングされたSRモデルを効率的に再利用する低ランク適応フレームワークである。実験の結果,AdaptSRはPSNRで最大4dB,実際のSRベンチマークで2%,GAN法と拡散型SR法より優れていた。
論文参考訳（メタデータ） (2025-03-10T18:03:18Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
UL-VIO: Ultra-lightweight Visual-Inertial Odometry with Noise Robust Test-time Adaptation [12.511829774226113]
視覚-慣性整合性に基づくテスト時間適応(TTA)が可能な超軽量 (1M) 視覚慣性オドメトリー (VIO) ネットワークを提案する。 KITTIデータセットで1分間のエラー増加 – 1% – で、最先端のネットワークサイズよりも36倍小さなネットワークサイズを実現している。
論文参考訳（メタデータ） (2024-09-19T22:24:14Z)
RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision [7.721101317599364]
本稿では,RT-DETRv3というRT-DETRに基づく階層的な正の監督手法を提案する。本稿では,デコーダ訓練の不十分さに対処するため,自己意図的摂動を含む新たな学習戦略を提案する。 RT-DETRv3は、RT-DETRシリーズやYOLOシリーズなど、既存のリアルタイム検出器よりも大幅に優れている。
論文参考訳（メタデータ） (2024-09-13T02:02:07Z)
Cascaded Temporal Updating Network for Efficient Video Super-Resolution [47.63267159007611]
リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。 CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
論文参考訳（メタデータ） (2024-08-26T12:59:32Z)
PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2024-08-20T01:56:07Z)
REP: Resource-Efficient Prompting for On-device Continual Learning [23.92661395403251]
オンデバイス連続学習(CL)は、モデル精度と資源効率の協調最適化を実践するために必要である。 CNNベースのCLは資源効率に優れており、ViTベースのCLはモデル性能に優れていると一般的に信じられている。本稿では,プロンプトベースのリハーサルフリー手法を特化して資源効率を向上させるREPを紹介する。
論文参考訳（メタデータ） (2024-06-07T09:17:33Z)
LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection [63.780355815743135]
リアルタイム物体検出においてYOLOよりも優れた軽量検出変換器LW-DETRを提案する。アーキテクチャは、ViTエンコーダ、プロジェクタ、浅いDETRデコーダの単純なスタックである。
論文参考訳（メタデータ） (2024-06-05T17:07:24Z)
VTR: An Optimized Vision Transformer for SAR ATR Acceleration on FPGA [2.8595179027282907]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンアプリケーションにおける最先端技術である。我々は、事前トレーニングなしで、小さなデータセットで直接トレーニングできる軽量なViTモデルを開発した。我々は,VTR (ViT for SAR ATR) と呼ぶ提案モデルを,広く使用されている3つのSARデータセット上で評価した。
論文参考訳（メタデータ） (2024-04-06T06:49:55Z)
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。 DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文参考訳（メタデータ） (2024-03-18T14:05:52Z)
Dynamic PlenOctree for Adaptive Sampling Refinement in Explicit NeRF [6.135925201075925]
PlenOctree DOTは,シーンの複雑さの変化に対応するために,サンプル分布を適応的に改良する。 POTと比較して、私たちのDOTは視覚的品質を高め、パラメータを55.15ドル/68.84%以上削減し、NeRF合成とタンクにそれぞれ1.7/1.9 FPSを提供する。
論文参考訳（メタデータ） (2023-07-28T06:21:42Z)
RTFormer: Efficient Design for Real-Time Semantic Segmentation with Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。 CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文参考訳（メタデータ） (2022-10-13T16:03:53Z)
Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。 REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文参考訳（メタデータ） (2021-12-09T00:29:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。