論文の概要: Fusion Meets Diverse Conditions: A High-diversity Benchmark and Baseline for UAV-based Multimodal Object Detection with Condition Cues
- arxiv url: http://arxiv.org/abs/2510.13620v1
- Date: Wed, 15 Oct 2025 14:50:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.716624
- Title: Fusion Meets Diverse Conditions: A High-diversity Benchmark and Baseline for UAV-based Multimodal Object Detection with Condition Cues
- Title(参考訳): Fusion Meets Diverse Conditions: A High-diversity Benchmark and Baseline for UAV-based Multimodal Object Detection with Condition Cues
- Authors: Chen Chen, Kangcheng Bin, Ting Hu, Jiahao Qi, Xingyue Liu, Tianpeng Liu, Zhen Liu, Yongxiang Liu, Ping Zhong,
- Abstract要約: 高度80mから300mの様々なシナリオをカバーする高多様性データセットATR-UMODを導入する。
各RGB-IRイメージペアには6つの条件属性がアノテートされ、貴重な高レベルなコンテキスト情報を提供する。
本稿では,マルチモーダルコントリビューションを適応的に再割り当てする新しいPCDFを提案する。
- 参考スコア(独自算出の注目度): 28.341059391069447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned aerial vehicles (UAV)-based object detection with visible (RGB) and infrared (IR) images facilitates robust around-the-clock detection, driven by advancements in deep learning techniques and the availability of high-quality dataset. However, the existing dataset struggles to fully capture real-world complexity for limited imaging conditions. To this end, we introduce a high-diversity dataset ATR-UMOD covering varying scenarios, spanning altitudes from 80m to 300m, angles from 0{\deg} to 75{\deg}, and all-day, all-year time variations in rich weather and illumination conditions. Moreover, each RGB-IR image pair is annotated with 6 condition attributes, offering valuable high-level contextual information. To meet the challenge raised by such diverse conditions, we propose a novel prompt-guided condition-aware dynamic fusion (PCDF) to adaptively reassign multimodal contributions by leveraging annotated condition cues. By encoding imaging conditions as text prompts, PCDF effectively models the relationship between conditions and multimodal contributions through a task-specific soft-gating transformation. A prompt-guided condition-decoupling module further ensures the availability in practice without condition annotations. Experiments on ATR-UMOD dataset reveal the effectiveness of PCDF.
- Abstract(参考訳): 可視光(RGB)と赤外線(IR)画像を用いた無人航空機(UAV)による物体検出は、深層学習技術の進歩と高品質なデータセットの可用性により、時間付近の堅牢な検出を容易にする。
しかし、既存のデータセットは、限られた画像条件のために現実世界の複雑さを完全に捉えるのに苦労している。
この目的のために,高度80mから300m,0{\degから75{\degまでの角度,リッチ気象と照明条件の1日ごとの時間変動など,様々なシナリオをカバーする高多様性データセットATR-UMODを導入した。
さらに、それぞれのRGB-IRイメージペアには6つの条件属性がアノテートされ、貴重な高レベルなコンテキスト情報を提供する。
このような多様な条件によってもたらされる課題に対処するため,アノテートされた条件キューを利用してマルチモーダルなコントリビューションを適応的に再割り当てする,新しいプロンプト誘導型動的融合(PCDF)を提案する。
画像条件をテキストプロンプトとして符号化することにより、PCDFはタスク固有のソフトゲーティング変換を通じて、条件とマルチモーダルコントリビューションの関係を効果的にモデル化する。
prompt-guided condition-decouplingモジュールは、条件アノテーションなしで実際に利用できることを保証します。
ATR-UMODデータセットの実験によりPCDFの有効性が明らかになった。
関連論文リスト
- Unified Unsupervised Anomaly Detection via Matching Cost Filtering [113.43366521994396]
教師なし異常検出(UAD)は、通常のトレーニングデータのみを用いて画像レベルの異常と画素レベルの異常を識別することを目的としている。
UADモデルの異常コスト量を補正するための汎用的なポストホック精錬フレームワークであるUnified Cost Filtering (UCF) を提案する。
論文 参考訳(メタデータ) (2025-10-03T03:28:18Z) - HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - ATR-UMMIM: A Benchmark Dataset for UAV-Based Multimodal Image Registration under Complex Imaging Conditions [8.471294328827547]
ATR-UMMIMは、UAVベースのアプリケーションにおけるマルチモーダル画像登録に適した、最初のベンチマークデータセットである。
このデータセットには、さまざまなシナリオをカバーした、生の可視、赤外線、正確に登録された可視画像の7,969個のトリプルが含まれている。
77,753の可視性を持つ11のオブジェクトカテゴリと78,409の赤外線バウンディングボックスを対象とする、すべての登録画像にオブジェクトレベルのアノテーションを提供する。
論文 参考訳(メタデータ) (2025-07-28T12:18:41Z) - RGB-Thermal Infrared Fusion for Robust Depth Estimation in Complex Environments [0.0]
本稿では,深度推定精度とロバスト性を向上させるマルチモーダル深度推定モデルRTFusionを提案する。
このモデルは、相互補完的アライメント(MCA)モジュールからなる独自の融合機構であるEGFusionを組み込んでいる。
MS2およびViViD++データセットの実験では、提案モデルが高品質な深度マップを一貫して生成していることが示されている。
論文 参考訳(メタデータ) (2025-03-05T01:35:14Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - ContextualFusion: Context-Based Multi-Sensor Fusion for 3D Object Detection in Adverse Operating Conditions [1.7537812081430004]
本研究では,3次元物体検出モデルにカメラやライダーの知識を取り入れたContextualFusionという手法を提案する。
我々の手法は、文脈バランスの取れた合成データセットの最先端手法に対して6.2%のmAP改善をもたらす。
本手法は,実世界のNuScenesデータセット上での夜間の3D対物性能を11.7%向上させる。
論文 参考訳(メタデータ) (2024-04-23T06:37:54Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。