論文の概要: Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors
- arxiv url: http://arxiv.org/abs/2603.08208v1
- Date: Mon, 09 Mar 2026 10:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.800589
- Title: Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors
- Title(参考訳): 不均一熱画像センサ間の無人航空機検出のためのアライメント・アウェアと信頼性向上型マルチモーダルフュージョン
- Authors: Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar,
- Abstract要約: 本研究は,Registration-Aware Guided Image Fusion (RGIF)とReliability-Gated Modality-Attention Fusion (RGMAF)の2つの融合戦略を紹介する。
RGIFは拡張相関係数(ECC)ベースのアフィン登録とガイドフィルターを組み合わせて熱塩分濃度を維持しながら構造的詳細を増強する。
RGMAFは、アフィンと光フローの登録と、熱コントラストと視覚的シャープネスを適応的にバランスさせる信頼性の高い注意機構を統合する。
- 参考スコア(独自算出の注目度): 6.686898063543218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable unmanned aerial vehicle (UAV) detection is critical for autonomous airspace monitoring but remains challenging when integrating sensor streams that differ substantially in resolution, perspective, and field of view. Conventional fusion methods-such as wavelet-, Laplacian-, and decision-level approaches-often fail to preserve spatial correspondence across modalities and suffer from annotation of inconsistencies, limiting their robustness in real-world settings. This study introduces two fusion strategies, Registration-aware Guided Image Fusion (RGIF) and Reliability-Gated Modality-Attention Fusion (RGMAF), designed to overcome these limitations. RGIF employs Enhanced Correlation Coefficient (ECC)-based affine registration combined with guided filtering to maintain thermal saliency while enhancing structural detail. RGMAF integrates affine and optical-flow registration with a reliability-weighted attention mechanism that adaptively balances thermal contrast and visual sharpness. Experiments were conducted on the Multi-Sensor and Multi-View Fixed-Wing (MMFW)-UAV dataset comprising 147,417 annotated air-to-air frames collected from infrared, wide-angle, and zoom sensors. Among single-modality detectors, YOLOv10x demonstrated the most stable cross-domain performance and was selected as the detection backbone for evaluating fused imagery. RGIF improved the visual baseline by 2.13% mAP@50 (achieving 97.65%), while RGMAF attained the highest recall of 98.64%. These findings show that registration-aware and reliability-adaptive fusion provides a robust framework for integrating heterogeneous modalities, substantially enhancing UAV detection performance in multimodal environments.
- Abstract(参考訳): 無人航空機(UAV)検出は、自律的な空域監視において重要であるが、解像度、視点、視野において大きく異なるセンサーストリームを統合する際には、依然として困難である。
ウェーブレット-、ラプラシア-、決定レベルのアプローチのような従来の融合法は、しばしばモダリティを越えて空間的対応を維持することができず、矛盾のアノテーションに悩まされ、現実の環境での彼らの堅牢性を制限する。
本研究では,Regisration-aware Guided Image Fusion (RGIF) とReliability-Gated Modality-Attention Fusion (RGMAF) の2つの融合戦略を紹介する。
RGIFは拡張相関係数(ECC)ベースのアフィン登録とガイドフィルターを組み合わせて熱塩分濃度を維持しながら構造的詳細を増強する。
RGMAFは、アフィンと光フローの登録と、熱コントラストと視覚的シャープネスを適応的にバランスさせる信頼性の高い注意機構を統合する。
赤外線,広角,ズームセンサから収集した147,417個の注釈付き空対空フレームからなるMMFW-UAVデータセットについて実験を行った。
単一モード検出器のうち、YOLOv10xは最も安定したクロスドメイン性能を示し、融合画像を評価するための検出バックボーンとして選択された。
RGIFでは2.13%のmAP@50(97.65%)が改善され、RGMAFは98.64%のリコールを達成した。
これらの結果から, マルチモーダル環境下でのUAV検出性能を大幅に向上させるため, 登録認識と信頼性適応融合が, 不均一なモダリティの統合のための堅牢な枠組みを提供することが明らかとなった。
関連論文リスト
- Perceptual Region-Driven Infrared-Visible Co-Fusion for Extreme Scene Enhancement [8.10747908396949]
マルチ露光とマルチモーダルイメージングを組み合わせた地域認識に基づく融合フレームワークを提案する。
このフレームワークは、極端環境における単一露光法制限を克服し、マルチモーダル・マルチ露光データを融合する。
合成データと実世界のデータの両方で行った実験は、最先端の手法と比較して画像の明瞭さが優れ、性能が向上した。
論文 参考訳(メタデータ) (2025-12-06T11:17:35Z) - Transferable Dual-Domain Feature Importance Attack against AI-Generated Image Detector [32.543253278021446]
最近のAI生成画像検出器(AIGI)は、クリーンな条件下で印象的な精度を達成している。
このような検出器の安全性を評価するための高度な敵攻撃を開発することは重要である。
本稿では,AIGI検出器をある程度無効化するためのDual-Domain Feature Importance Attackスキームを提案する。
論文 参考訳(メタデータ) (2025-11-19T16:03:15Z) - A Multimodal Transformer Approach for UAV Detection and Aerial Object Recognition Using Radar, Audio, and Video Data [0.3093890460224435]
無人航空機(UAV)の検出と航空機の物体認識は、現代の監視とセキュリティにとって重要である。
本研究は、新しいマルチモーダルトランスフォーマーモデルの設計と厳密な評価により、これらの課題に対処する。
レーダー、ビジュアルバンドビデオ(RGB)、赤外線(IR)ビデオ、オーディオといった多様なデータストリームを統合している。
論文 参考訳(メタデータ) (2025-11-19T10:22:29Z) - Model-Agnostic Open-Set Air-to-Air Visual Object Detection for Reliable UAV Perception [7.300229659237879]
従来のクローズドセット検出器はドメインシフトやフライトデータの破損によって著しく劣化する。
本稿では,埋め込み型検出器に特化して設計された,モデルに依存しない新しいオープンセット検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-11T09:40:06Z) - SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion [65.80051636480836]
本稿では,Segment Anything Model(SAM)によって導かれる条件拡散モデルを提案する。
このフレームワークは2段階のプロセスで動作し、まずマルチモーダルな特徴の予備的な融合を行い、その後、拡散モデルの粗大な分極生成を駆動する条件としてセマンティックマスクを利用する。
SGDFuseは主観的評価と客観的評価の両方において最先端の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-08-07T10:58:52Z) - Cross-modal Offset-guided Dynamic Alignment and Fusion for Weakly Aligned UAV Object Detection [0.0]
無人航空機(UAV)の物体検出は、環境モニタリングや都市警備といった用途において重要な役割を担っている。
UAVプラットフォームの動きと非同期イメージングにより、空間的不整合はしばしばモダリティの間で発生し、アライメントが弱くなる。
我々はこれらの問題に対処するために、クロスモーダルオフセット誘導動的アライメント・アンド・フュージョン(CoDAF)を提案する。
論文 参考訳(メタデータ) (2025-06-20T04:11:39Z) - StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model [62.25424831998405]
StealthDiffusionは、AI生成した画像を高品質で受け入れがたい敵の例に修正するフレームワークである。
ホワイトボックスとブラックボックスの設定の両方で有効であり、AI生成した画像を高品質な敵の偽造に変換する。
論文 参考訳(メタデータ) (2024-08-11T01:22:29Z) - Log-Likelihood Score Level Fusion for Improved Cross-Sensor Smartphone
Periocular Recognition [52.15994166413364]
我々は、複数のコンパレータを融合させて、異なるスマートフォンの画像を比較する際に、眼周囲の性能を改善する。
我々は線形ロジスティック回帰に基づく確率的融合フレームワークを使用し、融合したスコアはログライクな比率になる傾向にある。
我々のフレームワークは、同じセンサとクロスセンサーのスコア分布が整列され、共通の確率領域にマッピングされるため、異なるデバイスからの信号を処理するためのエレガントでシンプルなソリューションも提供します。
論文 参考訳(メタデータ) (2023-11-02T13:43:44Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - ASFD: Automatic and Scalable Face Detector [59.31799101216593]
本稿では,既存の全FAEモジュールをかなりの差で検出し,優れたFAEアーキテクチャであるAutoFAEを探索することを提案する。
特に、当社の強力な ASFD-D6 は WIDER Face テストで AP 96.7/96.2/92.1 よりも優れており、軽量の ASFD-D0 は約3.1 ms で 320 FPS 以上である。
論文 参考訳(メタデータ) (2022-01-26T07:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。