論文の概要: AeroVerse: UAV-Agent Benchmark Suite for Simulating, Pre-training, Finetuning, and Evaluating Aerospace Embodied World Models
- arxiv url: http://arxiv.org/abs/2408.15511v1
- Date: Wed, 28 Aug 2024 03:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 17:22:57.302685
- Title: AeroVerse: UAV-Agent Benchmark Suite for Simulating, Pre-training, Finetuning, and Evaluating Aerospace Embodied World Models
- Title(参考訳): AeroVerse: UAV-Agent Benchmark Suite for Simulated, Pre-Trening, Finetuning, and Evaluating Aerospace Embodied World Models
- Authors: Fanglong Yao, Yuanchang Yue, Youzhi Liu, Xian Sun, Kun Fu,
- Abstract要約: 航空宇宙インテリジェンス(Aerospace embodied intelligence)は、無人航空機(UAV)による自律的な認識、認識、行動の実現を目的としている。
AerialAgent-Ego10kという大規模な実世界の画像テキスト事前学習データセットを構築。
また,空域埋め込み世界モデルの事前学習を容易にするために,仮想画像テキストアライメントデータセットであるCyberAgent Ego500kを作成している。
- 参考スコア(独自算出の注目度): 14.090527594042863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aerospace embodied intelligence aims to empower unmanned aerial vehicles (UAVs) and other aerospace platforms to achieve autonomous perception, cognition, and action, as well as egocentric active interaction with humans and the environment. The aerospace embodied world model serves as an effective means to realize the autonomous intelligence of UAVs and represents a necessary pathway toward aerospace embodied intelligence. However, existing embodied world models primarily focus on ground-level intelligent agents in indoor scenarios, while research on UAV intelligent agents remains unexplored. To address this gap, we construct the first large-scale real-world image-text pre-training dataset, AerialAgent-Ego10k, featuring urban drones from a first-person perspective. We also create a virtual image-text-pose alignment dataset, CyberAgent Ego500k, to facilitate the pre-training of the aerospace embodied world model. For the first time, we clearly define 5 downstream tasks, i.e., aerospace embodied scene awareness, spatial reasoning, navigational exploration, task planning, and motion decision, and construct corresponding instruction datasets, i.e., SkyAgent-Scene3k, SkyAgent-Reason3k, SkyAgent-Nav3k and SkyAgent-Plan3k, and SkyAgent-Act3k, for fine-tuning the aerospace embodiment world model. Simultaneously, we develop SkyAgentEval, the downstream task evaluation metrics based on GPT-4, to comprehensively, flexibly, and objectively assess the results, revealing the potential and limitations of 2D/3D visual language models in UAV-agent tasks. Furthermore, we integrate over 10 2D/3D visual-language models, 2 pre-training datasets, 5 finetuning datasets, more than 10 evaluation metrics, and a simulator into the benchmark suite, i.e., AeroVerse, which will be released to the community to promote exploration and development of aerospace embodied intelligence.
- Abstract(参考訳): 航空宇宙の具体化された知能は、無人航空機(UAV)や他の航空宇宙プラットフォームに、自律的な認識、認識、行動、そして人間や環境とのエゴセントリックな活発な相互作用を実現することを目的としている。
航空宇宙エンボディド・ワールドモデルは、UAVの自律的な知性を実現する効果的な手段として機能し、航空宇宙エンボディド・インテリジェンスへの道筋を示す。
しかし、既存の組み込まれた世界モデルは、主に屋内シナリオにおける地上レベルの知的エージェントに焦点を当て、UAVの知的エージェントの研究は未調査のままである。
このギャップに対処するため、我々はAerialAgent-Ego10kという大規模な実世界の画像テキスト事前学習データセットを構築した。
また,空域埋め込み世界モデルの事前学習を容易にするために,仮想画像テキストアライメントデータセットであるCyberAgent Ego500kを作成している。
空域の環境認識,空間推論,ナビゲーション探索,タスク計画,動作決定を具現化した5つの下流タスクを初めて明確に定義し,それに対応する命令データセット,すなわちSkyAgent-Scene3k,SkyAgent-Reason3k,SkyAgent-Nav3k,SkyAgent-Plan3k,SkyAgent-Act3kを構築した。
同時に、GPT-4に基づく下流タスク評価指標であるSkyAgentEvalを開発し、UAVエージェントタスクにおける2D/3D視覚言語モデルの可能性と限界を明らかにする。
さらに、10以上の2D/3Dビジュアル言語モデル、2つの事前トレーニングデータセット、5つの微調整データセット、10以上の評価指標、シミュレータをベンチマークスイートに統合します。
関連論文リスト
- Commissioning An All-Sky Infrared Camera Array for Detection Of Airborne Objects [0.11703603440337004]
ガリレオ計画では、空を継続的に監視する多モード地上観測所を設計、建設、委託している。
鍵となる機器の1つは、8つの冷却されていない長波長のFLIRボソン640カメラを使用した全天型赤外線カメラアレイである。
各種気象条件に対する受入率(観測可能な航空機等)と検出効率(検出に成功している航空機等)を報告する。
おもちゃのアウトリーチは2次元再構成トラジェクトリーフラッグの大きな不純物に焦点を絞ったもので、トラジェクトリーの約16%をアウトリーチとして用いた。
論文 参考訳(メタデータ) (2024-11-12T17:31:51Z) - EmbodiedCity: A Benchmark Platform for Embodied Agent in Real-world City Environment [38.14321677323052]
身体的人工知能は、エージェントの身体が人間のような行動を引き起こす役割を強調している。
本稿では,実環境におけるインテリジェンス評価のためのベンチマークプラットフォームを構築する。
論文 参考訳(メタデータ) (2024-10-12T17:49:26Z) - UAV (Unmanned Aerial Vehicles): Diverse Applications of UAV Datasets in Segmentation, Classification, Detection, and Tracking [0.0]
無人航空機(UAV)は、さまざまな研究領域におけるデータの収集と分析のプロセスに革命をもたらした。
UAVデータセットは、衛星画像、ドローンが撮影した画像、ビデオなど、さまざまな種類のデータで構成されている。
これらのデータセットは、災害被害評価、航空監視、物体認識、追跡において重要な役割を果たす。
論文 参考訳(メタデータ) (2024-09-05T04:47:36Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z) - JRDB-Traj: A Dataset and Benchmark for Trajectory Forecasting in Crowds [79.00975648564483]
ロボット工学、自動運転車、ナビゲーションなどの分野で使用される軌道予測モデルは、現実のシナリオにおいて課題に直面している。
このデータセットは、ロボットの観点から、すべてのエージェント、シーンイメージ、ポイントクラウドの位置を含む包括的なデータを提供する。
本研究の目的は,ロボットに対するエージェントの将来の位置を,生の感覚入力データを用いて予測することである。
論文 参考訳(メタデータ) (2023-11-05T18:59:31Z) - AerialVLN: Vision-and-Language Navigation for UAVs [23.40363176320464]
AerialVLNという,UAVをベースとした,屋外環境に向けた新しいタスクを提案する。
都市レベル25のシナリオをほぼリアルに表現した3次元シミュレータを開発した。
AerialVLNが新しい課題であることを示唆するベースラインモデルと人的パフォーマンスの間にはまだ大きなギャップがある。
論文 参考訳(メタデータ) (2023-08-13T09:55:04Z) - Autonomous Aerial Robot for High-Speed Search and Intercept Applications [86.72321289033562]
高速物体把握のための完全自律飛行ロボットが提案されている。
追加のサブタスクとして、我々のシステムは、表面に近い極にある気球を自律的にピアスすることができる。
我々のアプローチは、挑戦的な国際競争で検証され、優れた結果が得られました。
論文 参考訳(メタデータ) (2021-12-10T11:49:51Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。