論文の概要: ATR-UMMIM: A Benchmark Dataset for UAV-Based Multimodal Image Registration under Complex Imaging Conditions
- arxiv url: http://arxiv.org/abs/2507.20764v1
- Date: Mon, 28 Jul 2025 12:18:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.111898
- Title: ATR-UMMIM: A Benchmark Dataset for UAV-Based Multimodal Image Registration under Complex Imaging Conditions
- Title(参考訳): ATR-UMMIM:複雑な撮像条件下でのUAVに基づくマルチモーダル画像登録のためのベンチマークデータセット
- Authors: Kangcheng Bin, Chen Chen, Ting Hu, Jiahao Qi, Ping Zhong,
- Abstract要約: ATR-UMMIMは、UAVベースのアプリケーションにおけるマルチモーダル画像登録に適した、最初のベンチマークデータセットである。
このデータセットには、さまざまなシナリオをカバーした、生の可視、赤外線、正確に登録された可視画像の7,969個のトリプルが含まれている。
77,753の可視性を持つ11のオブジェクトカテゴリと78,409の赤外線バウンディングボックスを対象とする、すべての登録画像にオブジェクトレベルのアノテーションを提供する。
- 参考スコア(独自算出の注目度): 8.471294328827547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal fusion has become a key enabler for UAV-based object detection, as each modality provides complementary cues for robust feature extraction. However, due to significant differences in resolution, field of view, and sensing characteristics across modalities, accurate registration is a prerequisite before fusion. Despite its importance, there is currently no publicly available benchmark specifically designed for multimodal registration in UAV-based aerial scenarios, which severely limits the development and evaluation of advanced registration methods under real-world conditions. To bridge this gap, we present ATR-UMMIM, the first benchmark dataset specifically tailored for multimodal image registration in UAV-based applications. This dataset includes 7,969 triplets of raw visible, infrared, and precisely registered visible images captured covers diverse scenarios including flight altitudes from 80m to 300m, camera angles from 0{\deg} to 75{\deg}, and all-day, all-year temporal variations under rich weather and illumination conditions. To ensure high registration quality, we design a semi-automated annotation pipeline to introduce reliable pixel-level ground truth to each triplet. In addition, each triplet is annotated with six imaging condition attributes, enabling benchmarking of registration robustness under real-world deployment settings. To further support downstream tasks, we provide object-level annotations on all registered images, covering 11 object categories with 77,753 visible and 78,409 infrared bounding boxes. We believe ATR-UMMIM will serve as a foundational benchmark for advancing multimodal registration, fusion, and perception in real-world UAV scenarios. The datatset can be download from https://github.com/supercpy/ATR-UMMIM
- Abstract(参考訳): マルチモーダル融合は、それぞれのモーダルが頑健な特徴抽出のための相補的な手がかりを提供するため、UAVベースの物体検出の鍵となる。
しかし, 解像度, 視野, 知覚特性の相違により, 正確な登録は, 融合前に必要不可欠である。
その重要性にもかかわらず、UAVベースの航空シナリオにおけるマルチモーダルな登録のために特別に設計されたベンチマークは公開されていないため、現実の状況下での高度な登録方法の開発と評価を著しく制限している。
このギャップを埋めるために、UAVベースのアプリケーションでマルチモーダル画像登録に適した最初のベンチマークデータセットであるATR-UMMIMを提案する。
このデータセットには、80mから300mまでの飛行高度、0{\deg}から75{\deg}までのカメラアングル、リッチな天候と照明条件下での全年にわたる時間変動を含む様々なシナリオをカバーする、生の可視、赤外線、正確に登録された可視画像の7,969個のトリプルが含まれている。
高い登録品質を確保するため,各トリプレットに信頼度の高い画素レベルの基底真理を導入するための半自動アノテーションパイプラインを設計する。
さらに、各トリプルトには6つのイメージング条件属性がアノテートされており、実際のデプロイメント設定下での登録堅牢性のベンチマークを可能にする。
下流タスクをさらにサポートするために、私たちは、77,753の可視性を持つ11のオブジェクトカテゴリと78,409の赤外線バウンディングボックスを含む、すべての登録済みイメージに対してオブジェクトレベルのアノテーションを提供する。
ATR-UMMIMは、実世界のUAVシナリオにおけるマルチモーダル登録、融合、知覚の促進のための基礎的なベンチマークとして機能すると考えています。
datatsetはhttps://github.com/supercpy/ATR-UMMIMからダウンロードできる。
関連論文リスト
- Cross-Spectral Body Recognition with Side Information Embedding: Benchmarks on LLCM and Analyzing Range-Induced Occlusions on IJB-MDF [51.36007967653781]
ViT(Vision Transformers)は、顔や身体の認識を含む幅広い生体計測タスクにおいて、印象的なパフォーマンスを誇示している。
本研究では、視認性(VIS)画像に事前訓練されたVTモデルを、クロススペクトル体認識の難しい問題に適用する。
このアイデアに基づいて、我々はSide Information Embedding (SIE)を統合し、ドメインとカメラ情報のエンコーディングの影響を調べ、スペクトル間マッチングを強化する。
驚くべきことに、我々の結果は、ドメイン情報を明示的に組み込むことなく、カメラ情報のみを符号化することで、LLCMデータセット上で最先端のパフォーマンスが得られることを示している。
論文 参考訳(メタデータ) (2025-06-10T16:20:52Z) - MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark [1.858700200692012]
MMS-VPRは、歩行者のみの複雑な環境でストリートレベルの場所認識のための大規模なマルチモーダルデータセットである。
データセットは78,575枚の注釈付き画像と2,512本のビデオクリップからなり、中国・成都にある70,800ドルの屋外商業地区で207箇所で撮影された。
論文 参考訳(メタデータ) (2025-05-18T06:21:13Z) - Bi-directional Self-Registration for Misaligned Infrared-Visible Image Fusion [53.60977801655896]
高品質なマルチモーダル画像融合を実現するためには,高精度なマルチモーダル画像ペアの取得が不可欠である。
我々は、新しい自己教師型 textbfBi-directional textbfSelf-textbfRegistration framework (textbfB-SR) を提案する。
論文 参考訳(メタデータ) (2025-05-11T09:36:25Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - UAVDB: Point-Guided Masks for UAV Detection and Segmentation [0.03464344220266879]
UAVの検出とセグメンテーションのための新しいベンチマークデータセットであるUAVDBを提案する。
ポイント誘導の弱い監視パイプライン上に構築されている。
UAVDBは、可視オブジェクトからほぼ1ピクセルのインスタンスまで、さまざまなスケールでUAVをキャプチャする。
論文 参考訳(メタデータ) (2024-09-09T13:27:53Z) - AG-ReID.v2: Bridging Aerial and Ground Views for Person Re-identification [39.58286453178339]
空中人物再識別(Re-ID)は、コンピュータビジョンにおいて固有の課題を提示する。
AG-ReID.v2は、空中および地上の混合シナリオにおいて、人物Re-ID用に特別に設計されたデータセットである。
このデータセットは、1,615人のユニークな個人の100,502枚の画像で構成され、それぞれに一致するIDと15のソフト属性ラベルが付加されている。
論文 参考訳(メタデータ) (2024-01-05T04:53:33Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - Registration-Free Hybrid Learning Empowers Simple Multimodal Imaging
System for High-quality Fusion Detection [1.9249287163937976]
本稿では,CNN-Transformerハイブリッド学習フレームワークであるIA-VFDnetを提案する。
AKMとDWDAFは相乗効果を利用して、高品質な赤外線可視核融合検出を行う。
M3FDデータセットの実験により,提案手法の優位性を検証した。
論文 参考訳(メタデータ) (2023-07-07T07:11:37Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。