論文の概要: Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments
- arxiv url: http://arxiv.org/abs/2504.02918v1
- Date: Thu, 03 Apr 2025 15:21:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 22:36:20.424001
- Title: Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments
- Title(参考訳): Morpheus: 実物実験による映像生成モデルの物理推論のベンチマーク
- Authors: Chenyu Zhang, Daniil Cherniavskii, Andrii Zadaianchuk, Antonios Tragoudaras, Antonios Vozikis, Thijmen Nijdam, Derck W. E. Prinzhorn, Mark Bodracska, Nicu Sebe, Efstratios Gavves,
- Abstract要約: 物理推論に基づく映像生成モデル評価のためのベンチマークであるMorpheusを紹介する。
物理現象を捉えた80の現実世界のビデオが保存法によってガイドされている。
我々の研究結果によると、プロンプトやビデオコンディショニングが進んだとしても、現在のモデルは物理原理をエンコードするのに苦労している。
- 参考スコア(独自算出の注目度): 55.465371691714296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in image and video generation raise hopes that these models possess world modeling capabilities, the ability to generate realistic, physically plausible videos. This could revolutionize applications in robotics, autonomous driving, and scientific simulation. However, before treating these models as world models, we must ask: Do they adhere to physical conservation laws? To answer this, we introduce Morpheus, a benchmark for evaluating video generation models on physical reasoning. It features 80 real-world videos capturing physical phenomena, guided by conservation laws. Since artificial generations lack ground truth, we assess physical plausibility using physics-informed metrics evaluated with respect to infallible conservation laws known per physical setting, leveraging advances in physics-informed neural networks and vision-language foundation models. Our findings reveal that even with advanced prompting and video conditioning, current models struggle to encode physical principles despite generating aesthetically pleasing videos. All data, leaderboard, and code are open-sourced at our project page.
- Abstract(参考訳): 画像とビデオ生成の最近の進歩は、これらのモデルが現実的で物理的に可能なビデオを生成する能力を持つことを期待している。
これはロボティクス、自律運転、科学シミュレーションの応用に革命をもたらす可能性がある。
しかし、これらのモデルを世界モデルとして扱う前に、我々は問う必要がある。
そこで本研究では,物理推論に基づく映像生成モデル評価のためのベンチマークであるMorpheusを紹介する。
物理現象を捉えた80の現実世界のビデオが保存法によってガイドされている。
人工生命体は基礎的真理を欠いているため,物理インフォームド・ニューラルネットワークやビジョンベース・ファンデーション・モデルにおける進歩を活用し,物理インフォームド・メトリクスを用いて物理環境における不確定な保存法則について評価した。
その結果、高度なプロンプトやビデオコンディショニングであっても、現在のモデルは、美的なビデオを生成するにもかかわらず、物理的な原則をエンコードするのに苦労していることがわかった。
すべてのデータ、リーダーボード、コードは、私たちのプロジェクトページでオープンソース化されています。
関連論文リスト
- VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness [76.16523963623537]
本稿では,本質的な忠実度を示すビデオ生成モデルを評価するためのベンチマークであるVBench-2.0を紹介する。
VBench-2.0は、人間の忠実さ、コントロール可能性、創造性、物理学、コモンセンスの5つの重要な次元を評価している。
VBench-2.0は、表面的な忠実性から本質的な忠実性までを推し進めることで、次世代のビデオ生成モデルの新たな標準を確立することを目指している。
論文 参考訳(メタデータ) (2025-03-27T17:57:01Z) - Synthetic Video Enhances Physical Fidelity in Video Synthesis [25.41774228022216]
コンピュータグラフィックスパイプラインから合成したビデオを利用して,映像生成モデルの物理忠実度を高める方法について検討する。
本稿では,合成データをキュレートして統合する手法を提案し,その物理リアリズムをモデルに転送する手法を提案する。
我々の研究は、合成ビデオがビデオ合成における物理的忠実性を高める最初の実証的なデモンストレーションの1つを提供する。
論文 参考訳(メタデータ) (2025-03-26T00:45:07Z) - VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文 参考訳(メタデータ) (2025-03-09T22:49:12Z) - Generative Physical AI in Vision: A Survey [78.07014292304373]
遺伝子人工知能(AI)は、コンピュータビジョンの分野を急速に進歩させ、機械が前例のない高度なビジュアルデータを作成し、解釈できるようにする。
この変換は、現実的な画像、ビデオ、および3D/4Dコンテンツを生成するための生成モデルの基礎の上に構築されている。
生成モデルが進化して物理リアリズムと動的シミュレーションを統合するにつれ、「世界シミュレータ」として機能する可能性が拡大する。
論文 参考訳(メタデータ) (2025-01-19T03:19:47Z) - Do generative video models understand physical principles? [15.534227431706773]
AIビデオ生成は、品質とリアリズムが急速に進歩し、革命を遂げている。
ビデオモデルは、物理の法則を発見する「世界モデル」を学ぶのか、それとも、現実の物理原理を理解せずに視覚的リアリズムを達成するための高度なピクセル予測器なのか?
我々は,様々な物理原理の深い理解を得ることによってのみ解決できるベンチマークデータセットであるPhysical-IQを開発することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-01-14T20:59:37Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。