論文の概要: 4DWorldBench: A Comprehensive Evaluation Framework for 3D/4D World Generation Models
- arxiv url: http://arxiv.org/abs/2511.19836v1
- Date: Tue, 25 Nov 2025 02:05:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.230756
- Title: 4DWorldBench: A Comprehensive Evaluation Framework for 3D/4D World Generation Models
- Title(参考訳): 4DWorldBench: 3D/4Dワールドジェネレーションモデルのための総合的評価フレームワーク
- Authors: Yiting Lu, Wei Luo, Peiyan Tu, Haoran Li, Hanxin Zhu, Zihao Yu, Xingrui Wang, Xinyi Chen, Xinge Peng, Xin Li, Zhibo Chen,
- Abstract要約: 次世代マルチモーダル・インテリジェンス・システムの基盤として、次世代モデルが登場しつつある。
World Modelsは、画像、ビデオ、テキストからリアルでダイナミックで物理的に一貫した3D/4Dワールドを構築することを目的としている。
4DWorldBenchは,知覚品質,条件4Dアライメント,物理リアリズム,4D一貫性の4つの重要な次元でモデルを測定する。
- 参考スコア(独自算出の注目度): 29.06964332825464
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: World Generation Models are emerging as a cornerstone of next-generation multimodal intelligence systems. Unlike traditional 2D visual generation, World Models aim to construct realistic, dynamic, and physically consistent 3D/4D worlds from images, videos, or text. These models not only need to produce high-fidelity visual content but also maintain coherence across space, time, physics, and instruction control, enabling applications in virtual reality, autonomous driving, embodied intelligence, and content creation. However, prior benchmarks emphasize different evaluation dimensions and lack a unified assessment of world-realism capability. To systematically evaluate World Models, we introduce the 4DWorldBench, which measures models across four key dimensions: Perceptual Quality, Condition-4D Alignment, Physical Realism, and 4D Consistency. The benchmark covers tasks such as Image-to-3D/4D, Video-to-4D, Text-to-3D/4D. Beyond these, we innovatively introduce adaptive conditioning across multiple modalities, which not only integrates but also extends traditional evaluation paradigms. To accommodate different modality-conditioned inputs, we map all modality conditions into a unified textual space during evaluation, and further integrate LLM-as-judge, MLLM-as-judge, and traditional network-based methods. This unified and adaptive design enables more comprehensive and consistent evaluation of alignment, physical realism, and cross-modal coherence. Preliminary human studies further demonstrate that our adaptive tool selection achieves closer agreement with subjective human judgments. We hope this benchmark will serve as a foundation for objective comparisons and improvements, accelerating the transition from "visual generation" to "world generation." Our project can be found at https://yeppp27.github.io/4DWorldBench.github.io/.
- Abstract(参考訳): 次世代マルチモーダル・インテリジェンス・システムの基盤として、次世代モデルが登場しつつある。
従来の2Dビジュアル生成とは異なり、World Modelsは、画像、ビデオ、テキストからリアルでダイナミックで物理的に一貫した3D/4Dワールドを構築することを目的としている。
これらのモデルは高忠実なビジュアルコンテンツを生成するだけでなく、空間、時間、物理、命令制御のコヒーレンスを維持し、バーチャルリアリティー、自律運転、エンボディドインテリジェンス、コンテンツ生成などの応用を可能にする。
しかし、以前のベンチマークでは異なる評価次元が強調され、世界現実主義能力の統一的な評価が欠如している。
4DWorldBenchは、知覚品質、条件4Dアライメント、物理リアリズム、および4D一貫性の4つの重要な次元にわたるモデルを測定する。
このベンチマークでは、Image-to-3D/4D、Video-to-4D、Text-to-3D/4Dなどのタスクをカバーしている。
さらに,複数のモードにまたがる適応的条件付けを革新的に導入し,従来の評価パラダイムを拡張した。
異なるモダリティ条件の入力に対応するため、評価中に全てのモダリティ条件を統一されたテキスト空間にマッピングし、LLM-as-judge、MLLM-as-judgeおよび従来のネットワークベースの手法を統合する。
この統一的で適応的な設計は、より包括的で一貫したアライメント、物理的リアリズム、およびクロスモーダルコヒーレンスの評価を可能にする。
さらに, 適応ツールの選択が主観的人間の判断と密接に一致していることを示す。
このベンチマークが客観的比較と改善の基礎となり、「視覚世代」から「世界世代」への移行が加速されることを願っている。
私たちのプロジェクトはhttps://yeppp27.github.io/4DWorldBench.github.io/にある。
関連論文リスト
- Uni4D-LLM: A Unified SpatioTemporal-Aware VLM for 4D Understanding and Generation [61.60600246983274]
既存の3Dおよび4Dアプローチは、通常、シーン幾何学を意味的理解とコンテンツ生成のための拡散モデルのための自己回帰モデルに組み込む。
我々は4次元シーン理解と生成のための時間的認識を備えた最初の統合VLMフレームワークであるUni4D-LLMを提案する。
論文 参考訳(メタデータ) (2025-09-28T12:06:54Z) - OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling [86.12242953301121]
我々は,4次元世界モデリングに特化した大規模マルチドメインマルチモーダルデータセットであるOmniWorldを紹介した。
既存の合成データセットと比較して、OmniWorld-Gameはよりリッチなモダリティカバレッジ、より大きなスケール、より現実的な動的インタラクションを提供する。
我々は、複雑な4D環境のモデリングにおいて、現在の最先端(SOTA)アプローチの限界を明らかにするための挑戦的なベンチマークを確立する。
論文 参考訳(メタデータ) (2025-09-15T17:59:19Z) - Advances in 4D Generation: A Survey [23.041037534410773]
4D生成により、インタラクティブで没入的な体験がより豊かになる。
急速な進歩にもかかわらず、この分野には4D表現、生成フレームワーク、基本的なパラダイム、それに直面する中核的な技術的課題の統一的な理解が欠けている。
この調査は、4D世代環境の体系的かつ詳細なレビューを提供する。
論文 参考訳(メタデータ) (2025-03-18T17:59:51Z) - Simulating the Real World: A Unified Survey of Multimodal Generative Models [48.35284571052435]
実世界のシミュレーションにおいて,データ次元の進行を調査する多モード生成モデルについて統一的な調査を行う。
我々の知る限りでは、これは単一のフレームワーク内で2D、ビデオ、3D、および4D生成の研究を体系的に統一する最初の試みである。
論文 参考訳(メタデータ) (2025-03-06T17:31:43Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - Human4DiT: 360-degree Human Video Generation with 4D Diffusion Transformer [38.85054820740242]
1枚の画像から高品質でコヒーレントな人間ビデオを生成するための新しい手法を提案する。
本フレームワークは,グローバル相関を捉える拡散変圧器の強度と,正確な条件注入を行うCNNの強度を組み合わせたものである。
我々は,360度リアルでコヒーレントな人間のモーションビデオを合成する手法の能力を実証した。
論文 参考訳(メタデータ) (2024-05-27T17:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。