論文の概要: UEMM-Air: Make Unmanned Aerial Vehicles Perform More Multi-modal Tasks
- arxiv url: http://arxiv.org/abs/2406.06230v3
- Date: Thu, 13 Feb 2025 02:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:45:31.785157
- Title: UEMM-Air: Make Unmanned Aerial Vehicles Perform More Multi-modal Tasks
- Title(参考訳): UEMM-Air:無人航空機のマルチモーダル化
- Authors: Liang Yao, Fan Liu, Shengxiang Xu, Chuanyi Zhang, Xing Ma, Jianyu Jiang, Zequan Wang, Shimin Di, Jun Zhou,
- Abstract要約: 合成マルチモーダルUAVベースのマルチタスクデータセットUEMM-Airを提案する。
具体的には、Unreal Engine (UE) を用いて、様々なUAV飛行シナリオとオブジェクトタイプをシミュレートする。
UEMM-Airは合計120k対の画像を6つのモダリティと正確なアノテーションで構成しています。
- 参考スコア(独自算出の注目度): 19.81981468705478
- License:
- Abstract: The development of multi-modal learning for Unmanned Aerial Vehicles (UAVs) typically relies on a large amount of pixel-aligned multi-modal image data. However, existing datasets face challenges such as limited modalities, high construction costs, and imprecise annotations. To this end, we propose a synthetic multi-modal UAV-based multi-task dataset, UEMM-Air. Specifically, we simulate various UAV flight scenarios and object types using the Unreal Engine (UE). Then we design the UAV's flight logic to automatically collect data from different scenarios, perspectives, and altitudes. Furthermore, we propose a novel heuristic automatic annotation algorithm to generate accurate object detection labels. Finally, we utilize labels to generate text descriptions of images to make our UEMM-Air support more cross-modality tasks. In total, our UEMM-Air consists of 120k pairs of images with 6 modalities and precise annotations. Moreover, we conduct numerous experiments and establish new benchmark results on our dataset. We also found that models pre-trained on UEMM-Air exhibit better performance on downstream tasks compared to other similar datasets. The dataset is publicly available (https://github.com/1e12Leon/UEMM-Air) to support the research of multi-modal tasks on UAVs.
- Abstract(参考訳): 無人航空機(UAV)のマルチモーダル学習の開発は、通常、大量のピクセル配列のマルチモーダル画像データに依存している。
しかし、既存のデータセットは、制限されたモダリティ、高い建設コスト、不正確なアノテーションといった課題に直面している。
そこで本研究では,UAVをベースとしたマルチタスク・データセットUEMM-Airを提案する。
具体的には、Unreal Engine (UE) を用いて、様々なUAV飛行シナリオとオブジェクトタイプをシミュレートする。
次に、UAVの飛行ロジックを設計し、さまざまなシナリオ、視点、高度からデータを自動的に収集します。
さらに,正確なオブジェクト検出ラベルを生成するためのヒューリスティックな自動アノテーションアルゴリズムを提案する。
最後に、ラベルを用いて画像のテキスト記述を生成し、UEMM-Airがよりモダリティなタスクをサポートするようにします。
UEMM-Airは合計120k対の画像を6つのモダリティと正確なアノテーションで構成しています。
さらに、多数の実験を行い、データセット上で新しいベンチマーク結果を確立する。
また、UEMM-Airで事前訓練されたモデルでは、他の類似したデータセットと比較して、下流タスクのパフォーマンスが向上することが判明した。
データセット(https://github.com/1e12Leon/UEMM-Air)は、UAV上のマルチモーダルタスクの研究をサポートするために公開されている。
関連論文リスト
- Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。
実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。
実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2024-08-08T09:09:37Z) - Scale-Invariant Feature Disentanglement via Adversarial Learning for UAV-based Object Detection [18.11107031800982]
本稿では,スケール不変の特徴を学習することで,単段階推論の精度を向上させることを提案する。
3つのベンチマークデータセット上で、最先端の3つの軽量検出フレームワークに適用する。
論文 参考訳(メタデータ) (2024-05-24T11:40:22Z) - MMAUD: A Comprehensive Multi-Modal Anti-UAV Dataset for Modern Miniature
Drone Threats [37.981623262267036]
MMAUDは、ドローン検出、UAV型分類、軌道推定に焦点を当てて、現代の脅威検出手法における重要なギャップに対処する。
これは、熱とRGBを使用して特定のベタージュポイントでキャプチャされたデータセットよりも忠実度の高い実世界のシナリオに対処するための、ユニークな頭上の空中検出を提供する。
提案するモダリティは費用対効果が高く適応性が高いため,UAV脅威検出ツールの実験と実装が可能である。
論文 参考訳(メタデータ) (2024-02-06T04:57:07Z) - Archangel: A Hybrid UAV-based Human Detection Benchmark with Position
and Pose Metadata [10.426019628829204]
ArchangelはUAVベースのオブジェクト検出データセットで、実際のサブセットと合成サブセットで構成されている。
一連の実験は、メタデータを活用する利点を実証するために、最先端のオブジェクト検出器で慎重に設計されている。
論文 参考訳(メタデータ) (2022-08-31T21:45:16Z) - Leveraging Synthetic Data in Object Detection on Unmanned Aerial
Vehicles [14.853897011640022]
オープンソースフレームワークのDeepGTAVを拡張して,UAVシナリオに対処します。
いくつかの領域の様々な大規模高分解能合成データセットをキャプチャして、UAVからの実物検出に利用したことを示す。
論文 参考訳(メタデータ) (2021-12-22T22:41:02Z) - DAE : Discriminatory Auto-Encoder for multivariate time-series anomaly
detection in air transportation [68.8204255655161]
識別オートエンコーダ(DAE)と呼ばれる新しい異常検出モデルを提案する。
通常のLSTMベースのオートエンコーダのベースラインを使用するが、いくつかのデコーダがあり、それぞれ特定の飛行フェーズのデータを取得する。
その結果,DAEは精度と検出速度の両方で良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-09-08T14:07:55Z) - M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object
Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。
M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文 参考訳(メタデータ) (2021-04-24T06:48:23Z) - Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。
UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-16T11:37:43Z) - Simultaneous Detection and Tracking with Motion Modelling for Multiple
Object Tracking [94.24393546459424]
本稿では,複数の物体の運動パラメータを推定し,共同検出と関連付けを行うディープ・モーション・モデリング・ネットワーク(DMM-Net)を提案する。
DMM-Netは、人気の高いUA-DETRACチャレンジで12.80 @120+ fpsのPR-MOTAスコアを達成した。
また,車両追跡のための大規模な公開データセットOmni-MOTを合成し,精密な接地トルースアノテーションを提供する。
論文 参考訳(メタデータ) (2020-08-20T08:05:33Z) - Contextual-Bandit Anomaly Detection for IoT Data in Distributed
Hierarchical Edge Computing [65.78881372074983]
IoTデバイスは複雑なディープニューラルネットワーク(DNN)モデルにはほとんど余裕がなく、異常検出タスクをクラウドにオフロードすることは長い遅延を引き起こす。
本稿では,分散階層エッジコンピューティング(HEC)システムを対象とした適応型異常検出手法のデモと構築を行う。
提案手法は,検出タスクをクラウドにオフロードした場合と比較して,精度を犠牲にすることなく検出遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2020-04-15T06:13:33Z) - AU-AIR: A Multi-modal Unmanned Aerial Vehicle Dataset for Low Altitude
Traffic Surveillance [20.318367304051176]
カメラを搭載した無人航空機(UAV)は、空中(バードビュー)画像を撮影する利点がある。
オブジェクトアノテーションによる視覚データを含む、いくつかの空中データセットが導入されている。
本研究では,実環境下で収集されたマルチモーダルセンサデータを有する多目的航空データセット(AU-AIR)を提案する。
論文 参考訳(メタデータ) (2020-01-31T09:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。