Fugu-MT 論文翻訳(概要): UEMM-Air: A Synthetic Multi-modal Dataset for Unmanned Aerial Vehicle Object Detection

論文の概要: UEMM-Air: A Synthetic Multi-modal Dataset for Unmanned Aerial Vehicle Object Detection

arxiv url: http://arxiv.org/abs/2406.06230v1
Date: Mon, 10 Jun 2024 13:00:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 13:58:00.157374
Title: UEMM-Air: A Synthetic Multi-modal Dataset for Unmanned Aerial Vehicle Object Detection
Title（参考訳）: UEMM-Air:無人航空機物体検出のための合成マルチモーダルデータセット
Authors: Fan Liu, Liang Yao, Shengxiang Xu, Chuanyi Zhang, Xinlei Zhang, Ting Wu,
Abstract要約: 合成多モードUAVオブジェクト検出データセットUEMM-Airを提案する。特に、Unreal Engine (UE) を用いて、様々なUAV飛行シナリオとオブジェクトタイプをシミュレートする。 UEMM-Airは5つのモダリティと正確なアノテーションを備えた20万枚の画像で構成されています。
参考スコア（独自算出の注目度）: 14.869928980343415
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The development of multi-modal object detection for Unmanned Aerial Vehicles (UAVs) typically relies on a large amount of pixel-aligned multi-modal image data. However, existing datasets face challenges such as limited modalities, high construction costs, and imprecise annotations. To this end, we propose a synthetic multi-modal UAV-based object detection dataset, UEMM-Air. Specially, we simulate various UAV flight scenarios and object types using the Unreal Engine (UE). Then we design the UAV's flight logic to automatically collect data from different scenarios, perspectives, and altitudes. Finally, we propose a novel heuristic automatic annotation algorithm to generate accurate object detection labels. In total, our UEMM-Air consists of 20k pairs of images with 5 modalities and precise annotations. Moreover, we conduct numerous experiments and establish new benchmark results on our dataset. We found that models pre-trained on UEMM-Air exhibit better performance on downstream tasks compared to other similar datasets. The dataset is publicly available (https://github.com/1e12Leon/UEMM-Air) to support the research of multi-modal UAV object detection models.
Abstract（参考訳）: 無人航空機(UAV)のマルチモーダル物体検出の開発は、通常、大量のピクセル配列のマルチモーダル画像データに依存している。しかし、既存のデータセットは、制限されたモダリティ、高い建設コスト、不正確なアノテーションといった課題に直面している。そこで本研究では,UAVをベースとした複合型オブジェクト検出データセットUEMM-Airを提案する。具体的には,Unreal Engine (UE) を用いて,様々なUAV飛行シナリオとオブジェクトタイプをシミュレートする。次に、UAVの飛行ロジックを設計し、さまざまなシナリオ、視点、高度からデータを自動的に収集します。最後に,新しいヒューリスティックな自動アノテーションアルゴリズムを提案し,正確なオブジェクト検出ラベルを生成する。 UEMM-Airは5つのモダリティと正確なアノテーションを備えた20万枚の画像で構成されています。さらに、多数の実験を行い、データセット上で新しいベンチマーク結果を確立する。 UEMM-Airで事前訓練したモデルでは、他の類似したデータセットと比較して下流タスクの性能が向上することがわかった。データセットは公開されており(https://github.com/1e12Leon/UEMM-Air)、マルチモーダルUAVオブジェクト検出モデルの研究をサポートする。

関連論文リスト

UAVScenes: A Multi-Modal Dataset for UAVs [45.752766099526525]
UAVScenesは2Dと3Dの両方のモードでさまざまなタスクをベンチマークするために設計された大規模なデータセットである。我々は、フレームワイド画像とLiDARポイントクラウドの両方に対して、手動でラベル付けされたセマンティックアノテーションを提供することにより、このデータセットを強化する。これらの追加により、セグメンテーション、深さ推定、6-DoFローカライゼーション、位置認識、新しいビュー合成など、幅広いUAV認識タスクが可能になる。
論文参考訳（メタデータ） (2025-07-30T06:29:52Z)
What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。 OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文参考訳（メタデータ） (2025-06-10T15:59:38Z)
AeroReformer: Aerial Referring Transformer for UAV-based Referring Image Segmentation [9.55871636831991]
本稿では,UAV参照画像セグメンテーション(UAV-RIS)のための新しいフレームワークを提案する。 AeroReformerは、効果的なクロスモーダル理解のためのVision-Language Cross-Attention Module (VLCAM)とローテーション対応のマルチスケール核融合デコーダを備えている。新たに開発された2つのデータセットの実験は、既存の方法よりもAeroReformerの方が優れていることを示している。
論文参考訳（メタデータ） (2025-02-23T18:49:00Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文参考訳（メタデータ） (2025-01-10T07:56:23Z)
UAV-DETR: Efficient End-to-End Object Detection for Unmanned Aerial Vehicle Imagery [14.599037804047724]
無人航空機物体検出(UAV-OD)は様々なシナリオで広く用いられている。既存のUAV-ODアルゴリズムの多くは手動で設計したコンポーネントに依存しており、広範囲なチューニングを必要とする。本稿では,UAV画像に適した効率的な検出変換器(DETR)フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-03T15:11:14Z)
DriveMM: All-in-One Large Multimodal Model for Autonomous Driving [63.882827922267666]
DriveMMは、画像やマルチビュービデオなどの多様なデータ入力を処理するために設計された、大規模なマルチモーダルモデルである。我々は、6つの公開ベンチマークで評価を行い、未確認のデータセットでゼロショット転送を行い、DriveMMはすべてのタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-10T17:27:32Z)
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文参考訳（メタデータ） (2024-08-08T17:10:16Z)
Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文参考訳（メタデータ） (2024-08-08T09:09:37Z)
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文参考訳（メタデータ） (2024-07-15T17:54:37Z)
Instruction-Guided Visual Masking [25.26544571379426]
Instruction-guided Visual Masking (IVM) は多様なマルチモーダルモデルと互換性のある多目的な視覚的接地モデルである。 IVMを拡張したマルチモーダルモデルは、タスク関連の画像領域に効果的にフォーカスすることで、複雑な命令との整合性を向上することができる。
論文参考訳（メタデータ） (2024-05-30T07:48:32Z)
Scale-Invariant Feature Disentanglement via Adversarial Learning for UAV-based Object Detection [18.11107031800982]
本稿では,スケール不変の特徴を学習することで,単段階推論の精度を向上させることを提案する。 3つのベンチマークデータセット上で、最先端の3つの軽量検出フレームワークに適用する。
論文参考訳（メタデータ） (2024-05-24T11:40:22Z)
MMAUD: A Comprehensive Multi-Modal Anti-UAV Dataset for Modern Miniature Drone Threats [37.981623262267036]
MMAUDは、ドローン検出、UAV型分類、軌道推定に焦点を当てて、現代の脅威検出手法における重要なギャップに対処する。これは、熱とRGBを使用して特定のベタージュポイントでキャプチャされたデータセットよりも忠実度の高い実世界のシナリオに対処するための、ユニークな頭上の空中検出を提供する。提案するモダリティは費用対効果が高く適応性が高いため,UAV脅威検出ツールの実験と実装が可能である。
論文参考訳（メタデータ） (2024-02-06T04:57:07Z)
An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文参考訳（メタデータ） (2023-06-29T17:59:57Z)
Archangel: A Hybrid UAV-based Human Detection Benchmark with Position and Pose Metadata [10.426019628829204]
ArchangelはUAVベースのオブジェクト検出データセットで、実際のサブセットと合成サブセットで構成されている。一連の実験は、メタデータを活用する利点を実証するために、最先端のオブジェクト検出器で慎重に設計されている。
論文参考訳（メタデータ） (2022-08-31T21:45:16Z)
Leveraging Synthetic Data in Object Detection on Unmanned Aerial Vehicles [14.853897011640022]
オープンソースフレームワークのDeepGTAVを拡張して,UAVシナリオに対処します。いくつかの領域の様々な大規模高分解能合成データセットをキャプチャして、UAVからの実物検出に利用したことを示す。
論文参考訳（メタデータ） (2021-12-22T22:41:02Z)
DAE : Discriminatory Auto-Encoder for multivariate time-series anomaly detection in air transportation [68.8204255655161]
識別オートエンコーダ(DAE)と呼ばれる新しい異常検出モデルを提案する。通常のLSTMベースのオートエンコーダのベースラインを使用するが、いくつかのデコーダがあり、それぞれ特定の飛行フェーズのデータを取得する。その結果,DAEは精度と検出速度の両方で良好な結果が得られることがわかった。
論文参考訳（メタデータ） (2021-09-08T14:07:55Z)
M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。 M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文参考訳（メタデータ） (2021-04-24T06:48:23Z)
Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。 UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文参考訳（メタデータ） (2020-09-16T11:37:43Z)
Simultaneous Detection and Tracking with Motion Modelling for Multiple Object Tracking [94.24393546459424]
本稿では,複数の物体の運動パラメータを推定し,共同検出と関連付けを行うディープ・モーション・モデリング・ネットワーク(DMM-Net)を提案する。 DMM-Netは、人気の高いUA-DETRACチャレンジで12.80 @120+ fpsのPR-MOTAスコアを達成した。また,車両追跡のための大規模な公開データセットOmni-MOTを合成し,精密な接地トルースアノテーションを提供する。
論文参考訳（メタデータ） (2020-08-20T08:05:33Z)
Contextual-Bandit Anomaly Detection for IoT Data in Distributed Hierarchical Edge Computing [65.78881372074983]
IoTデバイスは複雑なディープニューラルネットワーク(DNN)モデルにはほとんど余裕がなく、異常検出タスクをクラウドにオフロードすることは長い遅延を引き起こす。本稿では,分散階層エッジコンピューティング(HEC)システムを対象とした適応型異常検出手法のデモと構築を行う。提案手法は,検出タスクをクラウドにオフロードした場合と比較して,精度を犠牲にすることなく検出遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2020-04-15T06:13:33Z)
AU-AIR: A Multi-modal Unmanned Aerial Vehicle Dataset for Low Altitude Traffic Surveillance [20.318367304051176]
カメラを搭載した無人航空機(UAV)は、空中(バードビュー)画像を撮影する利点がある。オブジェクトアノテーションによる視覚データを含む、いくつかの空中データセットが導入されている。本研究では,実環境下で収集されたマルチモーダルセンサデータを有する多目的航空データセット(AU-AIR)を提案する。
論文参考訳（メタデータ） (2020-01-31T09:45:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。