論文の概要: WorldScore: A Unified Evaluation Benchmark for World Generation
- arxiv url: http://arxiv.org/abs/2504.00983v1
- Date: Tue, 01 Apr 2025 17:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:23:30.254825
- Title: WorldScore: A Unified Evaluation Benchmark for World Generation
- Title(参考訳): WorldScore: ワールドジェネレーションのための統一された評価ベンチマーク
- Authors: Haoyi Duan, Hong-Xing Yu, Sirui Chen, Li Fei-Fei, Jiajun Wu,
- Abstract要約: 我々は、ワールドジェネレーションのための最初の統一ベンチマークであるWorldScoreベンチマークを紹介する。
WorldScoreベンチマークには3000のテストサンプルのキュレートされたデータセットが含まれている。
WorldScoreのメトリクスは,3つの重要な側面 – 可制御性,品質,ダイナミック性 – を通じて生成された世界を評価します。
- 参考スコア(独自算出の注目度): 26.259206146192817
- License:
- Abstract: We introduce the WorldScore benchmark, the first unified benchmark for world generation. We decompose world generation into a sequence of next-scene generation tasks with explicit camera trajectory-based layout specifications, enabling unified evaluation of diverse approaches from 3D and 4D scene generation to video generation models. The WorldScore benchmark encompasses a curated dataset of 3,000 test examples that span diverse worlds: static and dynamic, indoor and outdoor, photorealistic and stylized. The WorldScore metrics evaluate generated worlds through three key aspects: controllability, quality, and dynamics. Through extensive evaluation of 19 representative models, including both open-source and closed-source ones, we reveal key insights and challenges for each category of models. Our dataset, evaluation code, and leaderboard can be found at https://haoyi-duan.github.io/WorldScore/
- Abstract(参考訳): 我々は、ワールドジェネレーションのための最初の統一ベンチマークであるWorldScoreベンチマークを紹介する。
本研究では,3Dおよび4Dシーン生成から映像生成モデルへの多様なアプローチの統一的な評価を可能にするために,カメラトラジェクトリに基づくレイアウト仕様を明示した次世代タスクに分解する。
WorldScoreベンチマークには、静的、動的、屋内、屋外、フォトリアリスティック、スタイリングなど、さまざまな世界にわたる3000のテストサンプルのキュレートされたデータセットが含まれている。
WorldScoreのメトリクスは,3つの重要な側面 – 可制御性,品質,ダイナミック性 – を通じて生成された世界を評価します。
オープンソースとクローズドソースの両方を含む19の代表的なモデルの広範な評価を通じて、モデルのカテゴリ毎に重要な洞察と課題を明らかにする。
私たちのデータセット、評価コード、リーダーボードはhttps://haoyi-duan.github.io/WorldScore/で確認できます。
関連論文リスト
- Benchmarking and Learning Multi-Dimensional Quality Evaluator for Text-to-3D Generation [26.0726219629689]
近年,テキスト・ツー・3D生成は目覚ましい進歩を遂げているが,これらの手法の評価はいまだに困難である。
既存のベンチマークには、異なるプロンプトカテゴリと評価次元に関するきめ細かい評価が欠けている。
まず,MATE-3Dという総合ベンチマークを提案する。
ベンチマークには、単一のオブジェクト生成と複数のオブジェクト生成をカバーする、よく設計された8つのプロンプトカテゴリが含まれており、結果として1,280のテクスチャメッシュが生成される。
論文 参考訳(メタデータ) (2024-12-15T12:41:44Z) - From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos [71.22810401256234]
オブジェクトやシーンの3次元理解は、人間が世界と対話する能力において重要な役割を果たす。
大規模合成およびオブジェクト中心の3Dデータセットは、オブジェクトの3D理解を持つモデルのトレーニングに有効であることが示されている。
我々は360-1M、360度ビデオデータセット、およびスケールの多様な視点から対応するフレームを効率的に見つけるプロセスを紹介した。
論文 参考訳(メタデータ) (2024-12-10T18:59:44Z) - VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (2024-11-20T17:54:41Z) - WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文 参考訳(メタデータ) (2024-10-23T17:56:11Z) - 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。
生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - ControlDreamer: Blending Geometry and Style in Text-to-3D [34.92628800597151]
我々は、慎重にキュレートされたテキストコーパスからデータセットに基づいて訓練された、新しい深度対応多視点拡散モデルであるMulti-view ControlNetを紹介する。
マルチビューコントロールネットは、2段階のパイプラインであるControlDreamerに統合され、テキストガイドによるスタイリングされた3Dモデルの生成を可能にします。
論文 参考訳(メタデータ) (2023-12-02T13:04:54Z) - VBench: Comprehensive Benchmark Suite for Video Generative Models [100.43756570261384]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBenchは、すべてのプロンプト、評価方法、生成されたビデオ、人間の好みのアノテーションを含むオープンソースとして公開します。
論文 参考訳(メタデータ) (2023-11-29T18:39:01Z) - Stanford-ORB: A Real-World 3D Object Inverse Rendering Benchmark [31.357709524280022]
Stanford-ORBは、新しい現実世界の3Dオブジェクト逆レンダリングベンチマークである。
近年の逆レンダリングの進歩により、3Dコンテンツ生成における幅広い現実世界の応用が可能となった。
論文 参考訳(メタデータ) (2023-10-24T17:57:58Z) - DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。