論文の概要: Simulating the Real World: A Unified Survey of Multimodal Generative Models
- arxiv url: http://arxiv.org/abs/2503.04641v1
- Date: Thu, 06 Mar 2025 17:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:48.732962
- Title: Simulating the Real World: A Unified Survey of Multimodal Generative Models
- Title(参考訳): 実世界のシミュレーション:マルチモーダル生成モデルの統一的調査
- Authors: Yuqi Hu, Longguang Wang, Xian Liu, Ling-Hao Chen, Yuwei Guo, Yukai Shi, Ce Liu, Anyi Rao, Zeyu Wang, Hui Xiong,
- Abstract要約: 実世界のシミュレーションにおいて,データ次元の進行を調査する多モード生成モデルについて統一的な調査を行う。
我々の知る限りでは、これは単一のフレームワーク内で2D、ビデオ、3D、および4D生成の研究を体系的に統一する最初の試みである。
- 参考スコア(独自算出の注目度): 48.35284571052435
- License:
- Abstract: Understanding and replicating the real world is a critical challenge in Artificial General Intelligence (AGI) research. To achieve this, many existing approaches, such as world models, aim to capture the fundamental principles governing the physical world, enabling more accurate simulations and meaningful interactions. However, current methods often treat different modalities, including 2D (images), videos, 3D, and 4D representations, as independent domains, overlooking their interdependencies. Additionally, these methods typically focus on isolated dimensions of reality without systematically integrating their connections. In this survey, we present a unified survey for multimodal generative models that investigate the progression of data dimensionality in real-world simulation. Specifically, this survey starts from 2D generation (appearance), then moves to video (appearance+dynamics) and 3D generation (appearance+geometry), and finally culminates in 4D generation that integrate all dimensions. To the best of our knowledge, this is the first attempt to systematically unify the study of 2D, video, 3D and 4D generation within a single framework. To guide future research, we provide a comprehensive review of datasets, evaluation metrics and future directions, and fostering insights for newcomers. This survey serves as a bridge to advance the study of multimodal generative models and real-world simulation within a unified framework.
- Abstract(参考訳): 現実世界の理解と複製は、人工知能(AGI)研究において重要な課題である。
これを達成するために、世界モデルのような既存の多くのアプローチは、物理世界を支配する基本的な原則を捉え、より正確なシミュレーションと意味のある相互作用を可能にすることを目的としている。
しかしながら、現在の手法では、2D (images)、ビデオ、3D、および4D表現を独立したドメインとして扱い、それらの相互依存性を見渡す。
さらに、これらの手法は典型的には、関係を体系的に統合することなく、現実の孤立した次元に焦点をあてる。
本研究では,実世界のシミュレーションにおけるデータ次元の進行を調査する多モード生成モデルについて統一的な調査を行う。
具体的には、この調査は2D世代(外見)から始まり、次にビデオ(外見+力学)と3D世代(外見+幾何学)に移り、最後にすべての次元を統合する4D世代で終わる。
我々の知る限りでは、これは単一のフレームワーク内で2D、ビデオ、3D、および4D生成の研究を体系的に統一する最初の試みである。
今後の研究の指針として,データセットの総合的なレビュー,評価指標と今後の方向性,新参者に対する洞察の育成について紹介する。
この調査は、統合されたフレームワーク内でのマルチモーダル生成モデルと実世界のシミュレーションの研究を進めるための橋渡しとなる。
関連論文リスト
- Generative Physical AI in Vision: A Survey [25.867330158975932]
生成人工知能(AI)は、コンピュータビジョンの分野を急速に進歩させ、機械が前例のない高度なビジュアルデータを作成し、解釈できるようにする。
生成AIが進化して物理リアリズムと動的シミュレーションを統合するにつれ、その「世界シミュレータ」として機能する可能性が高まっている。
この調査は、コンピュータビジョンにおける物理学を意識した生成AIの出現する分野を体系的にレビューする。
論文 参考訳(メタデータ) (2025-01-19T03:19:47Z) - Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - Diffusion Models in 3D Vision: A Survey [11.116658321394755]
本稿では,3次元視覚タスクの拡散モデルを利用する最先端のアプローチについて概説する。
これらのアプローチには、3Dオブジェクト生成、形状補完、点雲再構成、シーン理解が含まれる。
本稿では,計算効率の向上,マルチモーダル融合の強化,大規模事前学習の活用などの可能性について論じる。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.15395503285804]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している
本調査では,世界モデルの最新動向を包括的に調査する。
我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-05-06T14:37:07Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - Improving Generative Imagination in Object-Centric World Models [20.495475118576604]
G-SWM(Generative Structured World Models)を紹介する。
G-SWMは、原則化されたフレームワークにおいて、以前のモデルのキープロパティを統一する。
これは、マルチモーダル不確実性と状況認識という、2つの重要な新しい能力を達成する。
論文 参考訳(メタデータ) (2020-10-05T14:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。