論文の概要: UEMM-Air: A Synthetic Multi-modal Dataset for Unmanned Aerial Vehicle Object Detection
- arxiv url: http://arxiv.org/abs/2406.06230v1
- Date: Mon, 10 Jun 2024 13:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 13:58:00.157374
- Title: UEMM-Air: A Synthetic Multi-modal Dataset for Unmanned Aerial Vehicle Object Detection
- Title(参考訳): UEMM-Air:無人航空機物体検出のための合成マルチモーダルデータセット
- Authors: Fan Liu, Liang Yao, Shengxiang Xu, Chuanyi Zhang, Xinlei Zhang, Ting Wu,
- Abstract要約: 合成多モードUAVオブジェクト検出データセットUEMM-Airを提案する。
特に、Unreal Engine (UE) を用いて、様々なUAV飛行シナリオとオブジェクトタイプをシミュレートする。
UEMM-Airは5つのモダリティと正確なアノテーションを備えた20万枚の画像で構成されています。
- 参考スコア(独自算出の注目度): 14.869928980343415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of multi-modal object detection for Unmanned Aerial Vehicles (UAVs) typically relies on a large amount of pixel-aligned multi-modal image data. However, existing datasets face challenges such as limited modalities, high construction costs, and imprecise annotations. To this end, we propose a synthetic multi-modal UAV-based object detection dataset, UEMM-Air. Specially, we simulate various UAV flight scenarios and object types using the Unreal Engine (UE). Then we design the UAV's flight logic to automatically collect data from different scenarios, perspectives, and altitudes. Finally, we propose a novel heuristic automatic annotation algorithm to generate accurate object detection labels. In total, our UEMM-Air consists of 20k pairs of images with 5 modalities and precise annotations. Moreover, we conduct numerous experiments and establish new benchmark results on our dataset. We found that models pre-trained on UEMM-Air exhibit better performance on downstream tasks compared to other similar datasets. The dataset is publicly available (https://github.com/1e12Leon/UEMM-Air) to support the research of multi-modal UAV object detection models.
- Abstract(参考訳): 無人航空機(UAV)のマルチモーダル物体検出の開発は、通常、大量のピクセル配列のマルチモーダル画像データに依存している。
しかし、既存のデータセットは、制限されたモダリティ、高い建設コスト、不正確なアノテーションといった課題に直面している。
そこで本研究では,UAVをベースとした複合型オブジェクト検出データセットUEMM-Airを提案する。
具体的には,Unreal Engine (UE) を用いて,様々なUAV飛行シナリオとオブジェクトタイプをシミュレートする。
次に、UAVの飛行ロジックを設計し、さまざまなシナリオ、視点、高度からデータを自動的に収集します。
最後に,新しいヒューリスティックな自動アノテーションアルゴリズムを提案し,正確なオブジェクト検出ラベルを生成する。
UEMM-Airは5つのモダリティと正確なアノテーションを備えた20万枚の画像で構成されています。
さらに、多数の実験を行い、データセット上で新しいベンチマーク結果を確立する。
UEMM-Airで事前訓練したモデルでは、他の類似したデータセットと比較して下流タスクの性能が向上することがわかった。
データセットは公開されており(https://github.com/1e12Leon/UEMM-Air)、マルチモーダルUAVオブジェクト検出モデルの研究をサポートする。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - UAV-DETR: Efficient End-to-End Object Detection for Unmanned Aerial Vehicle Imagery [14.599037804047724]
無人航空機物体検出(UAV-OD)は様々なシナリオで広く用いられている。
既存のUAV-ODアルゴリズムの多くは手動で設計したコンポーネントに依存しており、広範囲なチューニングを必要とする。
本稿では,UAV画像に適した効率的な検出変換器(DETR)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:11:14Z) - DriveMM: All-in-One Large Multimodal Model for Autonomous Driving [63.882827922267666]
DriveMMは、画像やマルチビュービデオなどの多様なデータ入力を処理するために設計された、大規模なマルチモーダルモデルである。
我々は、6つの公開ベンチマークで評価を行い、未確認のデータセットでゼロショット転送を行い、DriveMMはすべてのタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-10T17:27:32Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Instruction-Guided Visual Masking [25.26544571379426]
Instruction-guided Visual Masking (IVM) は多様なマルチモーダルモデルと互換性のある多目的な視覚的接地モデルである。
IVMを拡張したマルチモーダルモデルは、タスク関連の画像領域に効果的にフォーカスすることで、複雑な命令との整合性を向上することができる。
論文 参考訳(メタデータ) (2024-05-30T07:48:32Z) - MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning [9.540487697801531]
MMEarthは、グローバルスケールでの多様なマルチモーダル事前トレーニングデータセットである。
光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-04T23:16:48Z) - MMAUD: A Comprehensive Multi-Modal Anti-UAV Dataset for Modern Miniature
Drone Threats [37.981623262267036]
MMAUDは、ドローン検出、UAV型分類、軌道推定に焦点を当てて、現代の脅威検出手法における重要なギャップに対処する。
これは、熱とRGBを使用して特定のベタージュポイントでキャプチャされたデータセットよりも忠実度の高い実世界のシナリオに対処するための、ユニークな頭上の空中検出を提供する。
提案するモダリティは費用対効果が高く適応性が高いため,UAV脅威検出ツールの実験と実装が可能である。
論文 参考訳(メタデータ) (2024-02-06T04:57:07Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - AU-AIR: A Multi-modal Unmanned Aerial Vehicle Dataset for Low Altitude
Traffic Surveillance [20.318367304051176]
カメラを搭載した無人航空機(UAV)は、空中(バードビュー)画像を撮影する利点がある。
オブジェクトアノテーションによる視覚データを含む、いくつかの空中データセットが導入されている。
本研究では,実環境下で収集されたマルチモーダルセンサデータを有する多目的航空データセット(AU-AIR)を提案する。
論文 参考訳(メタデータ) (2020-01-31T09:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。