論文の概要: From 2D to 3D Cognition: A Brief Survey of General World Models
- arxiv url: http://arxiv.org/abs/2506.20134v1
- Date: Wed, 25 Jun 2025 05:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.606462
- Title: From 2D to 3D Cognition: A Brief Survey of General World Models
- Title(参考訳): 2Dから3Dへの認識: 一般的な世界モデルに関する簡単な調査
- Authors: Ningwei Xie, Zizi Tian, Lei Yang, Xiao-Ping Zhang, Meng Guo, Jie Li,
- Abstract要約: 幾何学的に一貫したインタラクティブな3D環境を合成できる3D認識型生成世界モデルが実証されている。
急速な進歩にもかかわらず、この分野は、新しいテクニックを分類し、3D認知世界モデルを進める上での役割を明らかにするための体系的な分析を欠いている。
本調査は,2次元知覚から3次元認知へ移行する世界モデルの構造的,前方視的なレビューを提供する,概念的枠組みを導入することで,このニーズに対処する。
- 参考スコア(独自算出の注目度): 16.121071388463694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models have garnered increasing attention in the development of artificial general intelligence (AGI), serving as computational frameworks for learning representations of the external world and forecasting future states. While early efforts focused on 2D visual perception and simulation, recent 3D-aware generative world models have demonstrated the ability to synthesize geometrically consistent, interactive 3D environments, marking a shift toward 3D spatial cognition. Despite rapid progress, the field lacks systematic analysis to categorize emerging techniques and clarify their roles in advancing 3D cognitive world models. This survey addresses this need by introducing a conceptual framework, providing a structured and forward-looking review of world models transitioning from 2D perception to 3D cognition. Within this framework, we highlight two key technological drivers, particularly advances in 3D representations and the incorporation of world knowledge, as fundamental pillars. Building on these, we dissect three core cognitive capabilities that underpin 3D world modeling: 3D physical scene generation, 3D spatial reasoning, and 3D spatial interaction. We further examine the deployment of these capabilities in real-world applications, including embodied AI, autonomous driving, digital twin, and gaming/VR. Finally, we identify challenges across data, modeling, and deployment, and outline future directions for advancing more robust and generalizable 3D world models.
- Abstract(参考訳): 世界モデルは、人工知能(AGI)の発展に注目が集まっており、外界の表現を学習し、将来の状態を予測するための計算フレームワークとして機能している。
初期の取り組みは2次元の視覚知覚とシミュレーションに焦点を当てていたが、最近の3次元認識型生成世界モデルは、幾何学的に一貫したインタラクティブな3D環境を合成し、3次元空間認識へのシフトを示す能力を示した。
急速な進歩にもかかわらず、この分野は、新しいテクニックを分類し、3D認知世界モデルを進める上での役割を明らかにするための体系的な分析を欠いている。
本調査は,2次元知覚から3次元認知へ移行する世界モデルの構造的,前方視的なレビューを提供する,概念的枠組みを導入することで,このニーズに対処する。
本枠組みでは,2つの重要な技術要素,特に3次元表現の進歩と世界知識の取り入れを基本的柱として強調する。
これらに基づいて、3次元世界モデリングの基盤となる3つのコア認知能力、すなわち3次元の物理的シーン生成、3次元の空間的推論、3次元の空間的相互作用を識別する。
さらに、具体化されたAI、自律運転、デジタルツイン、ゲーム/VRなど、現実世界のアプリケーションにおけるこれらの機能の展開について検討する。
最後に、データ、モデリング、デプロイメントにまたがる課題を特定し、より堅牢で一般化可能な3Dワールドモデルを進めるための今後の方向性を概説する。
関連論文リスト
- Simulating the Real World: A Unified Survey of Multimodal Generative Models [48.35284571052435]
実世界のシミュレーションにおいて,データ次元の進行を調査する多モード生成モデルについて統一的な調査を行う。
我々の知る限りでは、これは単一のフレームワーク内で2D、ビデオ、3D、および4D生成の研究を体系的に統一する最初の試みである。
論文 参考訳(メタデータ) (2025-03-06T17:31:43Z) - Diffusion Models in 3D Vision: A Survey [18.805222552728225]
3Dビジョンはコンピュータビジョンにおいて重要な分野となり、自律運転、ロボット工学、拡張現実、医療画像などの幅広い応用に力を入れている。
本稿では,3次元オブジェクト生成,形状完備化,点雲再構成,シーン構築など,三次元視覚タスクに拡散モデルを用いる最先端の手法について概説する。
計算効率の向上,マルチモーダル融合の強化,大規模事前学習による3次元タスクの一般化の促進など,潜在的なソリューションについて議論する。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - Progress and Prospects in 3D Generative AI: A Technical Overview
including 3D human [51.58094069317723]
本稿は,2023年後半に主に刊行された関連論文の概要と概要を概説することを目的とする。
最初は、AIが生成したオブジェクトモデルを3Dで議論し、続いて生成された3Dの人間モデル、そして最後に生成された3Dの人間の動きを、決定的な要約と未来へのビジョンで結論付ける。
論文 参考訳(メタデータ) (2024-01-05T03:41:38Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。