論文の概要: RT-DETR++ for UAV Object Detection
- arxiv url: http://arxiv.org/abs/2509.09157v1
- Date: Thu, 11 Sep 2025 05:33:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.238779
- Title: RT-DETR++ for UAV Object Detection
- Title(参考訳): UAVオブジェクト検出のためのRT-DETR++
- Authors: Yuan Shufang,
- Abstract要約: 本稿では,RT-DETRモデルのエンコーダコンポーネントを強化するRT-DETR++を提案する。
チャネルゲート型アテンションベースアップサンプリング/ダウンサンプリング機構を導入する。
第2に,機能融合時にCSP-PACを取り入れた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection in unmanned aerial vehicle (UAV) imagery presents significant challenges. Issues such as densely packed small objects, scale variations, and occlusion are commonplace. This paper introduces RT-DETR++, which enhances the encoder component of the RT-DETR model. Our improvements focus on two key aspects. First, we introduce a channel-gated attention-based upsampling/downsampling (AU/AD) mechanism. This dual-path system minimizes errors and preserves details during feature layer propagation. Second, we incorporate CSP-PAC during feature fusion. This technique employs parallel hollow convolutions to process local and contextual information within the same layer, facilitating the integration of multi-scale features. Evaluation demonstrates that our novel neck design achieves superior performance in detecting small and densely packed objects. The model maintains sufficient speed for real-time detection without increasing computational complexity. This study provides an effective approach for feature encoding design in real-time detection systems.
- Abstract(参考訳): 無人航空機(UAV)画像における物体検出は重要な課題である。
密集した小さな物体、スケールのバリエーション、閉塞といった問題は一般的な問題である。
本稿では,RT-DETRモデルのエンコーダコンポーネントを強化するRT-DETR++を提案する。
私たちの改善は2つの重要な側面に焦点を当てています。
まず、チャネルゲート型アテンションベースアップサンプリング/ダウンサンプリング(AU/AD)機構を導入する。
このデュアルパスシステムはエラーを最小限に抑え、特徴層伝搬時の詳細を保存する。
第2に,機能融合時にCSP-PACを取り入れた。
この手法は並列なホロウ畳み込みを用いて同一層内の局所的および文脈的情報を処理し、マルチスケール機能の統合を容易にする。
提案する新しいネックデザインは, 小型で密集した物体の検出において, 優れた性能を発揮することを示す。
このモデルは、計算複雑性を増大させることなく、リアルタイム検出に十分な速度を維持する。
本研究では,リアルタイム検出システムにおける特徴符号化設計に有効な手法を提案する。
関連論文リスト
- Efficient Feature Fusion for UAV Object Detection [9.632727117779178]
特に小さな物体は画像のごく一部を占めており、正確な検出を困難にしている。
既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することでこれらの課題に対処する。
本稿では,UAVオブジェクト検出タスクに特化して設計された新しい機能融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-29T20:39:16Z) - Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images [2.9138705529771123]
本稿では,オブジェクト指向物体検出タスクに適したYOLOv8モデルを新たに拡張する。
本モデルでは,ASFP(Adaptive Scale Feature Pyramid)モジュールと,P2層の詳細を利用したウェーブレット変換に基づくC2fモジュールを特徴とする。
我々のアプローチは233万のパラメータを持つDecoupleNetよりも効率的なアーキテクチャ設計を提供し、検出精度を維持しています。
論文 参考訳(メタデータ) (2024-12-17T05:45:48Z) - Small Object Detection by DETR via Information Augmentation and Adaptive
Feature Fusion [4.9860018132769985]
RT-DETRモデルは、リアルタイムオブジェクト検出では良好に動作するが、小さなオブジェクト検出精度では不十分である。
異なるレベルから各特徴マップに学習可能なパラメータを割り当てる適応的特徴融合アルゴリズムを提案する。
これにより、異なるスケールでオブジェクトの特徴をキャプチャするモデルの能力が向上し、小さなオブジェクトを検出する精度が向上する。
論文 参考訳(メタデータ) (2024-01-16T00:01:23Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。