論文の概要: DGE-YOLO: Dual-Branch Gathering and Attention for Accurate UAV Object Detection
- arxiv url: http://arxiv.org/abs/2506.23252v1
- Date: Sun, 29 Jun 2025 14:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.788871
- Title: DGE-YOLO: Dual-Branch Gathering and Attention for Accurate UAV Object Detection
- Title(参考訳): DGE-YOLO:正確なUAV物体検出のためのデュアルブランチ・ギャザリングと注意
- Authors: Kunwei Lv, Ping Lan,
- Abstract要約: DGE-YOLOは、マルチモーダル情報を効果的に融合するために設計された拡張YOLOベースの検出フレームワークである。
具体的には、モダリティ固有の特徴抽出のためのデュアルブランチアーキテクチャを導入し、モデルが赤外線と可視画像の両方を処理できるようにする。
セマンティック表現をさらに強化するために,空間規模をまたいだ特徴学習を向上する効率的なマルチスケールアテンション(EMA)機構を提案する。
- 参考スコア(独自算出の注目度): 0.46040036610482665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid proliferation of unmanned aerial vehicles (UAVs) has highlighted the importance of robust and efficient object detection in diverse aerial scenarios. Detecting small objects under complex conditions, however, remains a significant challenge. Existing approaches often prioritize inference speed, leading to degraded performance when handling multi-modal inputs. To address this, we present DGE-YOLO, an enhanced YOLO-based detection framework designed to effectively fuse multi-modal information. Specifically, we introduce a dual-branch architecture for modality-specific feature extraction, enabling the model to process both infrared and visible images. To further enrich semantic representation, we propose an Efficient Multi-scale Attention (EMA) mechanism that enhances feature learning across spatial scales. Additionally, we replace the conventional neck with a Gather-and-Distribute module to mitigate information loss during feature aggregation. Extensive experiments on the Drone Vehicle dataset demonstrate that DGE-YOLO achieves superior performance over state-of-the-art methods, validating its effectiveness in multi-modal UAV object detection tasks.
- Abstract(参考訳): 無人航空機(UAV)の急速な普及は、多様な航空シナリオにおける堅牢で効率的な物体検出の重要性を強調している。
しかし、複雑な条件下で小さな物体を検出することは依然として大きな課題である。
既存のアプローチは推論速度を優先することが多く、マルチモーダル入力を処理する際に性能が低下する。
そこで本稿では,マルチモーダル情報を効果的に利用するための拡張YOLOベースの検出フレームワークであるDGE-YOLOを提案する。
具体的には、モダリティ固有の特徴抽出のためのデュアルブランチアーキテクチャを導入し、モデルが赤外線と可視画像の両方を処理できるようにする。
セマンティック表現をさらに強化するために,空間規模をまたいだ特徴学習を向上する効率的なマルチスケールアテンション(EMA)機構を提案する。
さらに,従来のネックをGather-and-Distributeモジュールに置き換えることで,特徴集約時の情報損失を軽減する。
Drone Vehicleデータセットの大規模な実験では、DGE-YOLOは最先端の手法よりも優れたパフォーマンスを達成し、マルチモーダルなUAVオブジェクト検出タスクの有効性を検証する。
関連論文リスト
- MASF-YOLO: An Improved YOLOv11 Network for Small Object Detection on Drone View [0.0]
マルチスケールコンテキストアグリゲーションとスケール適応型フュージョンYOLO(MASF-YOLO)を提案する。
UAV画像における小物体検出の難しさに対処するため,小型物体の検出精度を大幅に向上させるMFAM(Multi-scale Feature Aggregation Module)を設計した。
第3に,マルチスケール機能融合機能を強化したDASI(Dimension-Aware Selective Integration Module)を導入する。
論文 参考訳(メタデータ) (2025-04-25T07:43:33Z) - Enhanced Small Target Detection via Multi-Modal Fusion and Attention Mechanisms: A YOLOv5 Approach [1.90298817989995]
マルチモーダル画像融合とアテンション機構に基づく小さなターゲット検出手法を提案する。
この方法はYOLOv5を活用し、赤外線および可視光データと畳み込みアテンションモジュールを統合して検出性能を向上させる。
対UAVおよびVisdroneデータセットの実験結果は、我々のアプローチの有効性と実用性を示している。
論文 参考訳(メタデータ) (2025-04-15T15:02:10Z) - Efficient Feature Fusion for UAV Object Detection [9.632727117779178]
特に小さな物体は画像のごく一部を占めており、正確な検出を困難にしている。
既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することでこれらの課題に対処する。
本稿では,UAVオブジェクト検出タスクに特化して設計された新しい機能融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-29T20:39:16Z) - Optimizing Multispectral Object Detection: A Bag of Tricks and Comprehensive Benchmarks [49.84182981950623]
RGBおよびTIR(熱赤外)変調を利用したマルチスペクトル物体検出は,課題として広く認識されている。
モダリティと堅牢な融合戦略の両方から特徴を効果的に抽出するだけでなく、スペクトルの相違といった問題に対処する能力も必要である。
本稿では,高パフォーマンス単一モードモデルのシームレスな最適化が可能な,効率的かつ容易にデプロイ可能なマルチスペクトルオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:18:39Z) - Real-Time Detection for Small UAVs: Combining YOLO and Multi-frame Motion Analysis [0.8971132850029493]
無人航空機(UAV)検出技術は、セキュリティリスクの軽減と、軍用および民間の双方のアプリケーションにおけるプライバシーの保護において重要な役割を担っている。
従来の検出手法は、長距離で非常に小さなピクセルを持つUAVターゲットを識別する上で重要な課題に直面している。
我々は,YOLO(You Only Look Once)オブジェクト検出と多フレームモーション検出を併用したGlobal-Local YOLO-Motion(GL-YOMO)検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-10T14:30:50Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Occlusion-Aware Detection and Re-ID Calibrated Network for Multi-Object
Tracking [38.36872739816151]
検出器内のOAA(Occlusion-Aware Attention)モジュールは、隠蔽された背景領域を抑えながらオブジェクトの特徴を強調する。
OAAは、隠蔽される可能性のある物体の検出器を強化する変調器として機能する。
最適輸送問題に基づくRe-ID埋め込みマッチングブロックを設計する。
論文 参考訳(メタデータ) (2023-08-30T06:56:53Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。