Fugu-MT 論文翻訳(概要): UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI

論文の概要: UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI

arxiv url: http://arxiv.org/abs/2412.20977v1
Date: Mon, 30 Dec 2024 14:31:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.78983
Title: UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI
Title（参考訳）: UnrealZoo: 身近なAIのためのフォトリアリスティックバーチャルワールド
Authors: Fangwei Zhong, Kui Wu, Churan Wang, Hao Chen, Hai Ci, Zhoujun Li, Yizhou Wang,
Abstract要約: Unreal Engine上に構築された写真リアルな3Dバーチャルワールドの豊富なコレクションであるUnrealZooを紹介します。エンボディされたAIエージェントには、さまざまなプレイ可能なエンティティを提供しています。
参考スコア（独自算出の注目度）: 37.47562766916571
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce UnrealZoo, a rich collection of photo-realistic 3D virtual worlds built on Unreal Engine, designed to reflect the complexity and variability of the open worlds. Additionally, we offer a variety of playable entities for embodied AI agents. Based on UnrealCV, we provide a suite of easy-to-use Python APIs and tools for various potential applications, such as data collection, environment augmentation, distributed training, and benchmarking. We optimize the rendering and communication efficiency of UnrealCV to support advanced applications, such as multi-agent interaction. Our experiments benchmark agents in various complex scenes, focusing on visual navigation and tracking, which are fundamental capabilities for embodied visual intelligence. The results yield valuable insights into the advantages of diverse training environments for reinforcement learning (RL) agents and the challenges faced by current embodied vision agents, including those based on RL and large vision-language models (VLMs), in open worlds. These challenges involve latency in closed-loop control in dynamic scenes and reasoning about 3D spatial structures in unstructured terrain.
Abstract（参考訳）: オープンな世界の複雑さと多様性を反映した、Unreal Engine上に構築された、フォトリアリスティックな3Dバーチャルワールドの豊富なコレクションであるUnrealZooを紹介します。さらに、エンボディされたAIエージェントに対して、さまざまなプレイ可能なエンティティを提供しています。 UnrealCVをベースとして,データ収集や環境拡張,分散トレーニング,ベンチマークなど,さまざまな潜在的なアプリケーションを対象とした,使いやすいPython APIとツールのスイートを提供しています。マルチエージェントインタラクションなどの高度なアプリケーションをサポートするために,UnrealCVのレンダリングと通信効率を最適化する。本実験では,視覚情報の基本機能である視覚ナビゲーションとトラッキングに焦点をあて,様々な複雑な場面におけるエージェントのベンチマークを行った。その結果、RLエージェントの多様なトレーニング環境の利点と、オープンワールドにおけるRLおよび大規模視覚言語モデル(VLM)に基づいた現在の視覚エージェントが直面する課題について、貴重な知見を得た。これらの課題は、動的シーンにおけるクローズドループ制御の遅延と、非構造地形における3次元空間構造に関する推論である。

関連論文リスト

TwinOR: Photorealistic Digital Twins of Dynamic Operating Rooms for Embodied AI Research [9.65694006177344]
インテリジェントな手術システムのための具体的AIの開発には、継続的な学習と評価のために安全で制御可能な環境が必要である。デジタル双生児は、探索と訓練のために高忠実でリスクのない環境を提供する。我々は、AI研究のための手術室のフォトリアリスティックでダイナミックなデジタルツインを構築するためのフレームワークであるTwinORを紹介した。
論文参考訳（メタデータ） (2025-11-10T18:57:09Z)
Dyna-Mind: Learning to Simulate from Experience for Better AI Agents [62.21219817256246]
私たちは、現在のAIエージェントは、行動する前に、別の未来を精神的にシミュレートする能力である「悪意ある試行錯誤」を必要としていると論じます。我々は、(V)LMエージェントに対して、そのようなシミュレーションを推論に組み込むように明示的に教える2段階のトレーニングフレームワークであるDyna-Mindを紹介した。
論文参考訳（メタデータ） (2025-10-10T17:30:18Z)
Edge General Intelligence Through World Models and Agentic AI: Fundamentals, Solutions, and Challenges [87.02855999212817]
エッジ・ジェネラル・インテリジェンス(エッジ・ジェネラル・インテリジェンス、Edge General Intelligence、EGI)は、分散エージェントが自律的に知覚、理性、行動する能力を持つエッジ・コンピューティングの変革的進化を表す。世界モデルは、将来の軌跡を予測するだけでなく、積極的に想像するプロアクティブな内部シミュレーターとして機能し、不確実性の理由を定め、予見で多段階のアクションを計画する。この調査は、世界モデルがどのようにエージェント人工知能(AI)システムをエッジで強化できるかを包括的に分析することで、ギャップを埋める。
論文参考訳（メタデータ） (2025-08-13T07:29:40Z)
GenEx: Generating an Explorable World [59.0666303068111]
我々は、その生成的想像力によって導かれる複雑なエンボディ世界探査を計画できるシステムGenExを紹介する。 GenExは、単一のRGB画像から3D一貫性のある想像環境全体を生成します。 GPT支援エージェントは、ゴールに依存しない探索とゴール駆動ナビゲーションの両方を含む複雑な実施作業を行う。
論文参考訳（メタデータ） (2024-12-12T18:59:57Z)
EmbodiedCity: A Benchmark Platform for Embodied Agent in Real-world City Environment [38.14321677323052]
身体的人工知能は、エージェントの身体が人間のような行動を引き起こす役割を強調している。本稿では,実環境におけるインテリジェンス評価のためのベンチマークプラットフォームを構築する。
論文参考訳（メタデータ） (2024-10-12T17:49:26Z)
Multimodal 3D Fusion and In-Situ Learning for Spatially Aware AI [10.335943413484815]
拡張現実における仮想世界と物理世界のシームレスな統合は、物理的な環境を意味的に「理解する」システムから恩恵を受ける。本稿では,意味的知識と言語的知識を幾何学的表現と一体化する多モード3Dオブジェクト表現を提案する。提案システムの有用性を,Magic Leap 2上の2つの実世界のARアプリケーションを用いて実証する:a) 自然言語を用いた物理環境における空間探索,b) 時間とともにオブジェクトの変化を追跡するインテリジェントなインベントリシステム。
論文参考訳（メタデータ） (2024-10-06T23:25:21Z)
Learning Robot Soccer from Egocentric Vision with Deep Reinforcement Learning [17.906144781244336]
我々は,自己中心型RGBビジョンによる完全オンボード計算とセンシングにより,エンドツーエンドのロボットサッカーポリシーを訓練する。本稿では,マルチエージェントロボットサッカーにおけるエンドツーエンドトレーニングの最初の実演を行う。
論文参考訳（メタデータ） (2024-05-03T18:41:13Z)
Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文参考訳（メタデータ） (2024-03-13T17:50:32Z)
Self-supervised novel 2D view synthesis of large-scale scenes with efficient multi-scale voxel carving [77.07589573960436]
実シーンの新たなビューを生成するために,効率的なマルチスケールのボクセル彫刻手法を提案する。我々の最終的な高解像度出力は、ボクセル彫刻モジュールによって自動的に生成されるデータに基づいて効率よく自己学習される。実環境における複雑で大規模なシーンにおける本手法の有効性を実証する。
論文参考訳（メタデータ） (2023-06-26T13:57:05Z)
ArK: Augmented Reality with Knowledge Interactive Emergent Ability [115.72679420999535]
基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-05-01T17:57:01Z)
WILD-SCAV: Benchmarking FPS Gaming AI on Unity3D-based Environments [5.020816812380825]
深部強化学習(RL)の最近の進歩は,シミュレーション環境における複雑な意思決定能力を示している。しかしながら、これらは、トレーニングやテストが行われる環境の複雑さやバリエーションが欠如しているため、より複雑な問題はほとんどありません。我々は,このギャップを埋めるために,3次元オープンワールドFPSゲームに基づく,強力でオープンな環境であるWILD-SCAVを開発した。エージェントは3D環境を理解し、ナビゲートし、計画し、人間のような方法で競争し、協力することができる。
論文参考訳（メタデータ） (2022-10-14T13:39:41Z)
Evaluating Continual Learning Algorithms by Generating 3D Virtual Environments [66.83839051693695]
連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。本稿では3次元仮想環境の最近の進歩を活用して,フォトリアリスティックな外観を持つ潜在的に長寿命な動的シーンの自動生成にアプローチすることを提案する。本論文の新たな要素は、シーンがパラメトリックな方法で記述され、エージェントが知覚する入力ストリームの視覚的複雑さを完全に制御できることである。
論文参考訳（メタデータ） (2021-09-16T10:37:21Z)
iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。 iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文参考訳（メタデータ） (2020-12-05T02:14:17Z)
AI Online Filters to Real World Image Recognition [4.874719076317905]
本研究では,画像認識反射モデルに強化制御を加え,全体的な性能を向上させるための新しい手法について検討する。環境検知とAIに基づく自己適応エージェントのモデリングを併用した共通インフラストラクチャに従って、我々は複数のタイプのAI制御エージェントを実装している。
論文参考訳（メタデータ） (2020-02-11T08:23:14Z)
CRAVES: Controlling Robotic Arm with a Vision-based Economic System [96.56564257199474]
現実のタスクを達成するためにロボットアームを訓練することは、アカデミックと産業の両方で注目を集めている。本研究は,この分野におけるコンピュータビジョンアルゴリズムの役割について論じる。本稿では,3次元モデルを用いて大量の合成データを生成する方法を提案する。
論文参考訳（メタデータ） (2018-12-03T13:28:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。