論文の概要: Simulating the Real World: A Unified Survey of Multimodal Generative Models
- arxiv url: http://arxiv.org/abs/2503.04641v1
- Date: Thu, 06 Mar 2025 17:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 17:59:00.942914
- Title: Simulating the Real World: A Unified Survey of Multimodal Generative Models
- Title(参考訳): 実世界のシミュレーション:マルチモーダル生成モデルの統一的調査
- Authors: Yuqi Hu, Longguang Wang, Xian Liu, Ling-Hao Chen, Yuwei Guo, Yukai Shi, Ce Liu, Anyi Rao, Zeyu Wang, Hui Xiong,
- Abstract要約: 実世界のシミュレーションにおいて,データ次元の進行を調査する多モード生成モデルについて統一的な調査を行う。
我々の知る限りでは、これは単一のフレームワーク内で2D、ビデオ、3D、および4D生成の研究を体系的に統一する最初の試みである。
- 参考スコア(独自算出の注目度): 48.35284571052435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding and replicating the real world is a critical challenge in Artificial General Intelligence (AGI) research. To achieve this, many existing approaches, such as world models, aim to capture the fundamental principles governing the physical world, enabling more accurate simulations and meaningful interactions. However, current methods often treat different modalities, including 2D (images), videos, 3D, and 4D representations, as independent domains, overlooking their interdependencies. Additionally, these methods typically focus on isolated dimensions of reality without systematically integrating their connections. In this survey, we present a unified survey for multimodal generative models that investigate the progression of data dimensionality in real-world simulation. Specifically, this survey starts from 2D generation (appearance), then moves to video (appearance+dynamics) and 3D generation (appearance+geometry), and finally culminates in 4D generation that integrate all dimensions. To the best of our knowledge, this is the first attempt to systematically unify the study of 2D, video, 3D and 4D generation within a single framework. To guide future research, we provide a comprehensive review of datasets, evaluation metrics and future directions, and fostering insights for newcomers. This survey serves as a bridge to advance the study of multimodal generative models and real-world simulation within a unified framework.
- Abstract(参考訳): 現実世界の理解と複製は、人工知能(AGI)研究において重要な課題である。
これを達成するために、世界モデルのような既存の多くのアプローチは、物理世界を支配する基本的な原則を捉え、より正確なシミュレーションと意味のある相互作用を可能にすることを目的としている。
しかしながら、現在の手法では、2D (images)、ビデオ、3D、および4D表現を独立したドメインとして扱い、それらの相互依存性を見渡す。
さらに、これらの手法は典型的には、関係を体系的に統合することなく、現実の孤立した次元に焦点をあてる。
本研究では,実世界のシミュレーションにおけるデータ次元の進行を調査する多モード生成モデルについて統一的な調査を行う。
具体的には、この調査は2D世代(外見)から始まり、次にビデオ(外見+力学)と3D世代(外見+幾何学)に移り、最後にすべての次元を統合する4D世代で終わる。
我々の知る限りでは、これは単一のフレームワーク内で2D、ビデオ、3D、および4D生成の研究を体系的に統一する最初の試みである。
今後の研究の指針として,データセットの総合的なレビュー,評価指標と今後の方向性,新参者に対する洞察の育成について紹介する。
この調査は、統合されたフレームワーク内でのマルチモーダル生成モデルと実世界のシミュレーションの研究を進めるための橋渡しとなる。
関連論文リスト
- Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors [31.277540988829976]
本稿では,現在限定されている3次元HOIデータセットのエンドツーエンドトレーニングに頼ることなく,新しいゼロショットHOI合成フレームワークを提案する。
我々は、事前訓練された人間のポーズ推定モデルを用いて、人間のポーズを抽出し、一般化可能なカテゴリレベルの6-DoF推定手法を導入し、2次元HOI画像からオブジェクトポーズを求める。
論文 参考訳(メタデータ) (2025-03-25T23:55:47Z) - Advances in 4D Generation: A Survey [20.285058992203442]
4D生成は、ユーザ入力に基づいた一貫性のある動的3Dアセットの作成に重点を置いている。
一貫性、制御可能性、多様性、効率、忠実さの5つの主要な課題を要約する。
我々は現在,4D世代の発展を妨げる障害について,詳細な議論を行っている。
論文 参考訳(メタデータ) (2025-03-18T17:59:51Z) - Generative Physical AI in Vision: A Survey [78.07014292304373]
遺伝子人工知能(AI)は、コンピュータビジョンの分野を急速に進歩させ、機械が前例のない高度なビジュアルデータを作成し、解釈できるようにする。
この変換は、現実的な画像、ビデオ、および3D/4Dコンテンツを生成するための生成モデルの基礎の上に構築されている。
生成モデルが進化して物理リアリズムと動的シミュレーションを統合するにつれ、「世界シミュレータ」として機能する可能性が拡大する。
論文 参考訳(メタデータ) (2025-01-19T03:19:47Z) - Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - Diffusion Models in 3D Vision: A Survey [11.116658321394755]
本稿では,3次元視覚タスクの拡散モデルを利用する最先端のアプローチについて概説する。
これらのアプローチには、3Dオブジェクト生成、形状補完、点雲再構成、シーン理解が含まれる。
本稿では,計算効率の向上,マルチモーダル融合の強化,大規模事前学習の活用などの可能性について論じる。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Towards AI-Architecture Liberty: A Comprehensive Survey on Design and Generation of Virtual Architecture by Deep Learning [23.58793497403681]
ディープラーニングを活用した3D形状生成技術は、コンピュータビジョンとアーキテクチャデザインコミュニティの両方から大きな関心を集めている。
建築設計, 3次元形状技術, 仮想環境に関する149の関連記事について概説する。
深層学習支援アーキテクチャ生成における没入型システムとのユビキタスインタラクションの4つの重要な実現方法を強調した。
論文 参考訳(メタデータ) (2023-04-30T15:38:36Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - Recovering 3D Human Mesh from Monocular Images: A Survey [49.00136388529404]
単眼画像から人間のポーズと形状を推定することは、コンピュータビジョンにおける長年の問題である。
本調査は, 単分子型3次元メッシュ回収の課題に焦点を当てた。
論文 参考訳(メタデータ) (2022-03-03T18:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。