論文の概要: UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI
- arxiv url: http://arxiv.org/abs/2412.20977v1
- Date: Mon, 30 Dec 2024 14:31:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:02:06.573703
- Title: UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI
- Title(参考訳): UnrealZoo: 身近なAIのためのフォトリアリスティックバーチャルワールド
- Authors: Fangwei Zhong, Kui Wu, Churan Wang, Hao Chen, Hai Ci, Zhoujun Li, Yizhou Wang,
- Abstract要約: Unreal Engine上に構築された写真リアルな3Dバーチャルワールドの豊富なコレクションであるUnrealZooを紹介します。
エンボディされたAIエージェントには、さまざまなプレイ可能なエンティティを提供しています。
- 参考スコア(独自算出の注目度): 37.47562766916571
- License:
- Abstract: We introduce UnrealZoo, a rich collection of photo-realistic 3D virtual worlds built on Unreal Engine, designed to reflect the complexity and variability of the open worlds. Additionally, we offer a variety of playable entities for embodied AI agents. Based on UnrealCV, we provide a suite of easy-to-use Python APIs and tools for various potential applications, such as data collection, environment augmentation, distributed training, and benchmarking. We optimize the rendering and communication efficiency of UnrealCV to support advanced applications, such as multi-agent interaction. Our experiments benchmark agents in various complex scenes, focusing on visual navigation and tracking, which are fundamental capabilities for embodied visual intelligence. The results yield valuable insights into the advantages of diverse training environments for reinforcement learning (RL) agents and the challenges faced by current embodied vision agents, including those based on RL and large vision-language models (VLMs), in open worlds. These challenges involve latency in closed-loop control in dynamic scenes and reasoning about 3D spatial structures in unstructured terrain.
- Abstract(参考訳): オープンな世界の複雑さと多様性を反映した、Unreal Engine上に構築された、フォトリアリスティックな3Dバーチャルワールドの豊富なコレクションであるUnrealZooを紹介します。
さらに、エンボディされたAIエージェントに対して、さまざまなプレイ可能なエンティティを提供しています。
UnrealCVをベースとして,データ収集や環境拡張,分散トレーニング,ベンチマークなど,さまざまな潜在的なアプリケーションを対象とした,使いやすいPython APIとツールのスイートを提供しています。
マルチエージェントインタラクションなどの高度なアプリケーションをサポートするために,UnrealCVのレンダリングと通信効率を最適化する。
本実験では,視覚情報の基本機能である視覚ナビゲーションとトラッキングに焦点をあて,様々な複雑な場面におけるエージェントのベンチマークを行った。
その結果、RLエージェントの多様なトレーニング環境の利点と、オープンワールドにおけるRLおよび大規模視覚言語モデル(VLM)に基づいた現在の視覚エージェントが直面する課題について、貴重な知見を得た。
これらの課題は、動的シーンにおけるクローズドループ制御の遅延と、非構造地形における3次元空間構造に関する推論である。
関連論文リスト
- GenEx: Generating an Explorable World [59.0666303068111]
我々は、その生成的想像力によって導かれる複雑なエンボディ世界探査を計画できるシステムGenExを紹介する。
GenExは、単一のRGB画像から3D一貫性のある想像環境全体を生成します。
GPT支援エージェントは、ゴールに依存しない探索とゴール駆動ナビゲーションの両方を含む複雑な実施作業を行う。
論文 参考訳(メタデータ) (2024-12-12T18:59:57Z) - EmbodiedCity: A Benchmark Platform for Embodied Agent in Real-world City Environment [38.14321677323052]
身体的人工知能は、エージェントの身体が人間のような行動を引き起こす役割を強調している。
本稿では,実環境におけるインテリジェンス評価のためのベンチマークプラットフォームを構築する。
論文 参考訳(メタデータ) (2024-10-12T17:49:26Z) - Multimodal 3D Fusion and In-Situ Learning for Spatially Aware AI [10.335943413484815]
拡張現実における仮想世界と物理世界のシームレスな統合は、物理的な環境を意味的に「理解する」システムから恩恵を受ける。
本稿では,意味的知識と言語的知識を幾何学的表現と一体化する多モード3Dオブジェクト表現を提案する。
提案システムの有用性を,Magic Leap 2上の2つの実世界のARアプリケーションを用いて実証する:a) 自然言語を用いた物理環境における空間探索,b) 時間とともにオブジェクトの変化を追跡するインテリジェントなインベントリシステム。
論文 参考訳(メタデータ) (2024-10-06T23:25:21Z) - Learning Robot Soccer from Egocentric Vision with Deep Reinforcement Learning [17.906144781244336]
我々は,自己中心型RGBビジョンによる完全オンボード計算とセンシングにより,エンドツーエンドのロボットサッカーポリシーを訓練する。
本稿では,マルチエージェントロボットサッカーにおけるエンドツーエンドトレーニングの最初の実演を行う。
論文 参考訳(メタデータ) (2024-05-03T18:41:13Z) - Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - Self-supervised novel 2D view synthesis of large-scale scenes with
efficient multi-scale voxel carving [77.07589573960436]
実シーンの新たなビューを生成するために,効率的なマルチスケールのボクセル彫刻手法を提案する。
我々の最終的な高解像度出力は、ボクセル彫刻モジュールによって自動的に生成されるデータに基づいて効率よく自己学習される。
実環境における複雑で大規模なシーンにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-06-26T13:57:05Z) - ArK: Augmented Reality with Knowledge Interactive Emergent Ability [115.72679420999535]
基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。
私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。
我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-01T17:57:01Z) - WILD-SCAV: Benchmarking FPS Gaming AI on Unity3D-based Environments [5.020816812380825]
深部強化学習(RL)の最近の進歩は,シミュレーション環境における複雑な意思決定能力を示している。
しかしながら、これらは、トレーニングやテストが行われる環境の複雑さやバリエーションが欠如しているため、より複雑な問題はほとんどありません。
我々は,このギャップを埋めるために,3次元オープンワールドFPSゲームに基づく,強力でオープンな環境であるWILD-SCAVを開発した。
エージェントは3D環境を理解し、ナビゲートし、計画し、人間のような方法で競争し、協力することができる。
論文 参考訳(メタデータ) (2022-10-14T13:39:41Z) - Evaluating Continual Learning Algorithms by Generating 3D Virtual
Environments [66.83839051693695]
連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。
本稿では3次元仮想環境の最近の進歩を活用して,フォトリアリスティックな外観を持つ潜在的に長寿命な動的シーンの自動生成にアプローチすることを提案する。
本論文の新たな要素は、シーンがパラメトリックな方法で記述され、エージェントが知覚する入力ストリームの視覚的複雑さを完全に制御できることである。
論文 参考訳(メタデータ) (2021-09-16T10:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。