論文の概要: GenEx: Generating an Explorable World
- arxiv url: http://arxiv.org/abs/2412.09624v1
- Date: Thu, 12 Dec 2024 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 15:57:57.57807
- Title: GenEx: Generating an Explorable World
- Title(参考訳): GenEx: 探索可能な世界を生成する
- Authors: Taiming Lu, Tianmin Shu, Junfei Xiao, Luoxin Ye, Jiahao Wang, Cheng Peng, Chen Wei, Daniel Khashabi, Rama Chellappa, Alan Yuille, Jieneng Chen,
- Abstract要約: 我々は、その生成的想像力によって導かれる複雑なエンボディ世界探査を計画できるシステムGenExを紹介する。
GenExは、単一のRGB画像から3D一貫性のある想像環境全体を生成します。
GPT支援エージェントは、ゴールに依存しない探索とゴール駆動ナビゲーションの両方を含む複雑な実施作業を行う。
- 参考スコア(独自算出の注目度): 59.0666303068111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding, navigating, and exploring the 3D physical real world has long been a central challenge in the development of artificial intelligence. In this work, we take a step toward this goal by introducing GenEx, a system capable of planning complex embodied world exploration, guided by its generative imagination that forms priors (expectations) about the surrounding environments. GenEx generates an entire 3D-consistent imaginative environment from as little as a single RGB image, bringing it to life through panoramic video streams. Leveraging scalable 3D world data curated from Unreal Engine, our generative model is rounded in the physical world. It captures a continuous 360-degree environment with little effort, offering a boundless landscape for AI agents to explore and interact with. GenEx achieves high-quality world generation, robust loop consistency over long trajectories, and demonstrates strong 3D capabilities such as consistency and active 3D mapping. Powered by generative imagination of the world, GPT-assisted agents are equipped to perform complex embodied tasks, including both goal-agnostic exploration and goal-driven navigation. These agents utilize predictive expectation regarding unseen parts of the physical world to refine their beliefs, simulate different outcomes based on potential decisions, and make more informed choices. In summary, we demonstrate that GenEx provides a transformative platform for advancing embodied AI in imaginative spaces and brings potential for extending these capabilities to real-world exploration.
- Abstract(参考訳): 3D物理世界を理解し、ナビゲートし、探索することは、人工知能の開発において長年、中心的な課題であった。
本稿では, 環境に先立つ先駆的な想像力によって導かれる, 複雑な具体的世界探査を計画できるシステムであるGenExを導入することにより, この目標に向かって一歩踏み出した。
GenExは、1枚のRGB画像から3D一貫性のある想像環境全体を生成し、パノラマビデオストリームを通じて生み出す。
Unreal Engineからキュレートされたスケーラブルな3Dワールドデータを活用することで、生成モデルは物理的な世界で丸められます。
連続した360度環境を、ほとんど努力せずに捉え、AIエージェントが探索し、対話するための無限の風景を提供する。
GenExは高品質なワールドジェネレーションを実現し、長い軌道上で堅牢なループ一貫性を実現し、一貫性やアクティブな3Dマッピングといった強力な3D機能を示す。
世界の創造的な想像力によって、GPT支援エージェントは、ゴールに依存しない探索とゴール駆動ナビゲーションの両方を含む複雑な実施タスクを実行する。
これらのエージェントは、物理的な世界の見えない部分に関する予測予測を利用して、彼らの信念を洗練させ、潜在的な決定に基づいて異なる結果をシミュレートし、より情報的な選択を行う。
要約すると、GenExは、想像空間における具体的AIを前進させるための変換プラットフォームを提供し、これらの能力を現実世界の探索にまで拡張する可能性を秘めている。
関連論文リスト
- HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels [30.986527559921335]
HunyuanWorld 1.0は、テキストと画像の条件から没入的で探索可能なインタラクティブな3Dシーンを生成するための、両方の世界のベストを組み合わせた、新しいフレームワークである。
提案手法の主な利点は,1)パノラマ世界プロキシによる360度没入体験,2)既存のコンピュータグラフィックスパイプラインとのシームレスな互換性を実現するメッシュエクスポート機能,3)対話性向上のためのオブジェクト表現の非拘束化,の3つである。
論文 参考訳(メタデータ) (2025-07-29T13:43:35Z) - From 2D to 3D Cognition: A Brief Survey of General World Models [16.121071388463694]
幾何学的に一貫したインタラクティブな3D環境を合成できる3D認識型生成世界モデルが実証されている。
急速な進歩にもかかわらず、この分野は、新しいテクニックを分類し、3D認知世界モデルを進める上での役割を明らかにするための体系的な分析を欠いている。
本調査は,2次元知覚から3次元認知へ移行する世界モデルの構造的,前方視的なレビューを提供する,概念的枠組みを導入することで,このニーズに対処する。
論文 参考訳(メタデータ) (2025-06-25T05:05:09Z) - GenWorld: Towards Detecting AI-generated Real-world Simulation Videos [79.98542193919957]
GenWorldは、AI生成ビデオ検出のための大規模で高品質で実世界のシミュレーションデータセットである。
実世界のAI生成ビデオ検出のための強力な基準として,マルチビュー一貫性を活用するモデルであるSpannDetectorを提案する。
論文 参考訳(メタデータ) (2025-06-12T17:59:33Z) - EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence [8.987157387248317]
EmbodiedGenはインタラクティブな3Dワールドジェネレーションのための基盤となるプラットフォームだ。
高品質で、制御可能で、フォトリアリスティックな3Dアセットを低コストでスケーラブルに生成することができる。
論文 参考訳(メタデータ) (2025-06-12T11:43:50Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - SynCity: Training-Free Generation of 3D Worlds [107.69875149880679]
テキスト記述から3次元世界を生成するためのトレーニング不要かつ最適化不要なアプローチであるSynCityを提案する。
3Dと2Dのジェネレータが組み合わさって、拡大するシーンを生成する方法を示す。
論文 参考訳(メタデータ) (2025-03-20T17:59:40Z) - UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI [37.47562766916571]
Unreal Engine上に構築された写真リアルな3Dバーチャルワールドの豊富なコレクションであるUnrealZooを紹介します。
エンボディされたAIエージェントには、さまざまなプレイ可能なエンティティを提供しています。
論文 参考訳(メタデータ) (2024-12-30T14:31:01Z) - Generative World Explorer [28.135416905073313]
部分観察による計画は、AIの具体化における中心的な課題である。
我々は,エゴセントリックな世界探査フレームワークであるtextitGenerative World Explorer (Genex)$を紹介した。
Genexは、エージェントが大規模3D世界を精神的に探索し、その信念を更新するために想像された観察を得ることを可能にする。
論文 参考訳(メタデータ) (2024-11-18T18:59:31Z) - CityX: Controllable Procedural Content Generation for Unbounded 3D Cities [50.10101235281943]
現在の生成法は多様性、可制御性または忠実度に乏しい。
本研究では,高忠実度生成のための手続き的コンテンツ生成(PCG)技術を利用する。
我々は,OSM,セマンティックマップ,衛星画像などのマルチモーダル命令を実行可能なプログラムに変換するマルチエージェントフレームワークを開発した。
提案手法はCityXと呼ばれ,多種多様で制御可能でリアルな3D都市景観の創出において,その優位性を実証するものである。
論文 参考訳(メタデータ) (2024-07-24T18:05:13Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - Progress and Prospects in 3D Generative AI: A Technical Overview
including 3D human [51.58094069317723]
本稿は,2023年後半に主に刊行された関連論文の概要と概要を概説することを目的とする。
最初は、AIが生成したオブジェクトモデルを3Dで議論し、続いて生成された3Dの人間モデル、そして最後に生成された3Dの人間の動きを、決定的な要約と未来へのビジョンで結論付ける。
論文 参考訳(メタデータ) (2024-01-05T03:41:38Z) - Beyond Reality: The Pivotal Role of Generative AI in the Metaverse [98.1561456565877]
本稿では、生成型AI技術がMetaverseをどう形成しているかを包括的に調査する。
我々は、AI生成文字による会話インタフェースを強化しているChatGPTやGPT-3といったテキスト生成モデルの応用を探求する。
また、現実的な仮想オブジェクトを作成する上で、Point-EやLumimithmicのような3Dモデル生成技術の可能性についても検討する。
論文 参考訳(メタデータ) (2023-07-28T05:44:20Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。