論文の概要: MambaRefine-YOLO: A Dual-Modality Small Object Detector for UAV Imagery
- arxiv url: http://arxiv.org/abs/2511.19134v1
- Date: Mon, 24 Nov 2025 13:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.240458
- Title: MambaRefine-YOLO: A Dual-Modality Small Object Detector for UAV Imagery
- Title(参考訳): MambaRefine-YOLO:UAV画像用デュアルモード小型物体検出器
- Authors: Shuyu Cao, Minxin Chen, Yucheng Song, Zhaozhong Chen, Xinyou Zhang,
- Abstract要約: 無人航空機(UAV)画像における小さな物体検出は、低解像度と背景の乱れによって妨げられる永続的な課題である。
我々は,RGBとIRモダリティのバランスをとる融合モジュールであるMamba-YOLOを紹介した。
我々の研究は精度と速度のバランスが優れており、実際のUAVアプリケーションに非常に適している。
- 参考スコア(独自算出の注目度): 1.005854289245731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small object detection in Unmanned Aerial Vehicle (UAV) imagery is a persistent challenge, hindered by low resolution and background clutter. While fusing RGB and infrared (IR) data offers a promising solution, existing methods often struggle with the trade-off between effective cross-modal interaction and computational efficiency. In this letter, we introduce MambaRefine-YOLO. Its core contributions are a Dual-Gated Complementary Mamba fusion module (DGC-MFM) that adaptively balances RGB and IR modalities through illumination-aware and difference-aware gating mechanisms, and a Hierarchical Feature Aggregation Neck (HFAN) that uses a ``refine-then-fuse'' strategy to enhance multi-scale features. Our comprehensive experiments validate this dual-pronged approach. On the dual-modality DroneVehicle dataset, the full model achieves a state-of-the-art mAP of 83.2%, an improvement of 7.9% over the baseline. On the single-modality VisDrone dataset, a variant using only the HFAN also shows significant gains, demonstrating its general applicability. Our work presents a superior balance between accuracy and speed, making it highly suitable for real-world UAV applications.
- Abstract(参考訳): 無人航空機(UAV)画像における小さな物体検出は、低解像度と背景の乱れによって妨げられる永続的な課題である。
RGBと赤外線(IR)データを融合させることは有望な解決策となるが、既存の手法は効果的なクロスモーダル相互作用と計算効率のトレードオフに苦慮することが多い。
本文では,マンバレファインヨロについて紹介する。
その中核となるコントリビューションは、照明認識と差分認識ゲーティング機構を通じてRGBとIRのモダリティを適応的にバランスさせるDGC-MFM(Dual-Gated Complementary Mamba fusion Module)と、'refine-then-fuse'戦略を用いた階層的特徴集約ネック(HFAN)である。
我々の総合的な実験は、この二重進行アプローチを検証する。
デュアルモードのDroneVehicleデータセットでは、完全なモデルで最先端のmAPが83.2%に達し、ベースラインよりも7.9%向上した。
単一モードのVisDroneデータセットでは、HFANのみを使用した変種も大きな利得を示し、その汎用性を示している。
我々の研究は精度と速度のバランスが優れており、実際のUAVアプリケーションに非常に適している。
関連論文リスト
- ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - UNIV: Unified Foundation Model for Infrared and Visible Modalities [12.0490466425884]
Infrared and Visible modalities(UNIV)のための生物学的に着想を得た統一基盤モデルを提案する。
PCCLは、網膜水平細胞の側方抑制を模倣する注意誘導蒸留フレームワークである。
我々の二重知識保存機構は網膜の双極性細胞シグナルルーティングをエミュレートする。
論文 参考訳(メタデータ) (2025-09-19T06:07:53Z) - DEPFusion: Dual-Domain Enhancement and Priority-Guided Mamba Fusion for UAV Multispectral Object Detection [6.4402018224356015]
DEPFusionというフレームワークがUAVマルチスペクトル物体検出のために提案されている。
デュアルドメイン強化(DDE)と優先誘導マンバ核融合(PGMF)から構成される。
DroneVehicleとVEDAIデータセットの実験は、DEPFusionが最先端の手法で優れたパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2025-09-09T01:51:57Z) - DGE-YOLO: Dual-Branch Gathering and Attention for Accurate UAV Object Detection [0.46040036610482665]
DGE-YOLOは、マルチモーダル情報を効果的に融合するために設計された拡張YOLOベースの検出フレームワークである。
具体的には、モダリティ固有の特徴抽出のためのデュアルブランチアーキテクチャを導入し、モデルが赤外線と可視画像の両方を処理できるようにする。
セマンティック表現をさらに強化するために,空間規模をまたいだ特徴学習を向上する効率的なマルチスケールアテンション(EMA)機構を提案する。
論文 参考訳(メタデータ) (2025-06-29T14:19:18Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - DEYOLO: Dual-Feature-Enhancement YOLO for Cross-Modality Object Detection [5.946464547429392]
照明の悪い環境での物体検出は、通常RGB画像でははっきりと見えないため、難しい作業である。
本稿では,デュアルエンハンスメントに基づくオブジェクト検出ネットワークDEYOLOを提案する。
提案手法は,SOTAオブジェクト検出アルゴリズムよりも明確なマージンで優れている。
論文 参考訳(メタデータ) (2024-12-06T10:39:11Z) - Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark [69.02666229531322]
モダリティ不完全産業異常検出(MIIAD)の先駆的研究を紹介する。
その結果,既存のMIAD手法はMIIADベンチでは性能が悪く,性能が著しく低下していることが判明した。
本稿では,新しい2段階のロバストモードアリティファジングと検出フレームwoRk(RADAR)を提案する。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。