論文の概要: Cross-modal Offset-guided Dynamic Alignment and Fusion for Weakly Aligned UAV Object Detection
- arxiv url: http://arxiv.org/abs/2506.16737v1
- Date: Fri, 20 Jun 2025 04:11:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.337302
- Title: Cross-modal Offset-guided Dynamic Alignment and Fusion for Weakly Aligned UAV Object Detection
- Title(参考訳): 弱配向UAV物体検出のためのクロスモーダルオフセット誘導ダイナミックアライメントとフュージョン
- Authors: Liu Zongzhen, Luo Hui, Wang Zhixing, Wei Yuxing, Zuo Haorui, Zhang Jianlin,
- Abstract要約: 無人航空機(UAV)の物体検出は、環境モニタリングや都市警備といった用途において重要な役割を担っている。
UAVプラットフォームの動きと非同期イメージングにより、空間的不整合はしばしばモダリティの間で発生し、アライメントが弱くなる。
我々はこれらの問題に対処するために、クロスモーダルオフセット誘導動的アライメント・アンド・フュージョン(CoDAF)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned aerial vehicle (UAV) object detection plays a vital role in applications such as environmental monitoring and urban security. To improve robustness, recent studies have explored multimodal detection by fusing visible (RGB) and infrared (IR) imagery. However, due to UAV platform motion and asynchronous imaging, spatial misalignment frequently occurs between modalities, leading to weak alignment. This introduces two major challenges: semantic inconsistency at corresponding spatial locations and modality conflict during feature fusion. Existing methods often address these issues in isolation, limiting their effectiveness. In this paper, we propose Cross-modal Offset-guided Dynamic Alignment and Fusion (CoDAF), a unified framework that jointly tackles both challenges in weakly aligned UAV-based object detection. CoDAF comprises two novel modules: the Offset-guided Semantic Alignment (OSA), which estimates attention-based spatial offsets and uses deformable convolution guided by a shared semantic space to align features more precisely; and the Dynamic Attention-guided Fusion Module (DAFM), which adaptively balances modality contributions through gating and refines fused features via spatial-channel dual attention. By integrating alignment and fusion in a unified design, CoDAF enables robust UAV object detection. Experiments on standard benchmarks validate the effectiveness of our approach, with CoDAF achieving a mAP of 78.6% on the DroneVehicle dataset.
- Abstract(参考訳): 無人航空機(UAV)の物体検出は、環境監視や都市警備といった用途において重要な役割を担っている。
近年,可視光(RGB)と赤外線(IR)画像の融合によるマルチモーダル検出について検討している。
しかし、UAVプラットフォームの動きと非同期イメージングにより、空間的不整合がモダリティ間で頻繁に発生し、アライメントが弱くなる。
これは、対応する空間的位置における意味的不整合と、特徴融合時のモダリティ衝突という2つの大きな課題をもたらす。
既存の方法はしばしばこれらの問題を分離して対処し、その有効性を制限する。
本稿では,UAVに基づくオブジェクト検出において,両課題を両立させる統合フレームワークであるクロスモーダルオフセット誘導動的アライメント・アンド・フュージョン(CoDAF)を提案する。
CoDAFは2つの新しいモジュールから構成される: オフセット誘導セマンティックアライメント(OSA)は、注意に基づく空間オフセットを推定し、共有セマンティック空間によってガイドされる変形可能な畳み込みを使用して特徴をより正確に整合させる。
統一された設計でアライメントと融合を統合することで、CoDAFは堅牢なUAVオブジェクト検出を可能にする。
CoDAFはDroneVehicleデータセットで78.6%のmAPを達成した。
関連論文リスト
- WS-DETR: Robust Water Surface Object Detection through Vision-Radar Fusion with Detection Transformer [4.768265044725289]
水面オブジェクト検出は、ぼやけたエッジと多様なオブジェクトスケールの課題に直面します。
既存のアプローチは、モデルの堅牢性に悪影響を及ぼす、クロスモーダルな機能競合に悩まされている。
本稿では,SOTA(State-of-the-art)性能を実現する頑健なビジョンレーダ融合モデルWS-DETRを提案する。
論文 参考訳(メタデータ) (2025-04-10T04:16:46Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - TraF-Align: Trajectory-aware Feature Alignment for Asynchronous Multi-agent Perception [7.382491303268417]
TraF-Alignは、過去の観測からエゴ車両の現在までの物体の特徴レベル軌道を予測することによって、特徴のフローパスを学習する。
このアプローチは空間的不整合を補正し、エージェント間のセマンティックな一貫性を確保し、効果的に動きを補償する。
2つの実世界のデータセットであるV2V4RealとDAIR-V2X-Seqの実験は、TraF-Alignが非同期協調知覚のための新しいベンチマークを設定していることを示している。
論文 参考訳(メタデータ) (2025-03-25T06:56:35Z) - Aligning Foundation Model Priors and Diffusion-Based Hand Interactions for Occlusion-Resistant Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置や閉塞が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本研究では,基礎モデルに基づく2次元先行モデルと拡散に基づく相互作用改善を組み込むことにより,手振りとインタラクションを正確に整合させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - Griffin: Aerial-Ground Cooperative Detection and Tracking Dataset and Benchmark [15.405137983083875]
航空と地上の協力は、UAVの空中視界と地上の車両の局部的な観測を統合することで、有望な解決策を提供する。
本稿では,3つの重要な貢献を通じて,地上3次元協調認識のための包括的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-03-10T07:00:07Z) - DPDETR: Decoupled Position Detection Transformer for Infrared-Visible Object Detection [42.70285733630796]
赤外可視物体検出は、赤外と可視画像の相補的な情報を活用することにより、堅牢な物体検出を実現することを目的としている。
相補的特徴の融合は困難であり、現在の手法では相補的条件下での両モードの物体の正確な検出はできない。
これらの問題に対処するための分離位置検出変換器を提案する。
DroneVehicleとKAISTデータセットの実験は、他の最先端の方法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-08-12T13:05:43Z) - Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector [72.05791402494727]
本稿では,CD-FSODを用いたクロスドメイン小ショット検出法について検討する。
最小限のラベル付き例で、新しいドメインのための正確なオブジェクト検出器を開発することを目的としている。
論文 参考訳(メタデータ) (2024-02-05T15:25:32Z) - Multi-Task Cross-Modality Attention-Fusion for 2D Object Detection [6.388430091498446]
レーダとカメラデータの整合性を向上する2つの新しいレーダ前処理手法を提案する。
また,オブジェクト検出のためのMulti-Task Cross-Modality Attention-Fusion Network (MCAF-Net)を導入する。
我々のアプローチは、nuScenesデータセットにおける現在の最先端のレーダーカメラフュージョンベースのオブジェクト検出器よりも優れています。
論文 参考訳(メタデータ) (2023-07-17T09:26:13Z) - SOOD: Towards Semi-Supervised Oriented Object Detection [57.05141794402972]
本稿では, 主流の擬似ラベリングフレームワーク上に構築された, SOOD と呼ばれる, 半教師付きオブジェクト指向物体検出モデルを提案する。
提案した2つの損失をトレーニングした場合,SOODはDOTA-v1.5ベンチマークの様々な設定下で,最先端のSSOD法を超越することを示した。
論文 参考訳(メタデータ) (2023-04-10T11:10:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。