論文の概要: "PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models
- arxiv url: http://arxiv.org/abs/2507.13428v1
- Date: Thu, 17 Jul 2025 17:54:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.099273
- Title: "PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models
- Title(参考訳): PhyWorldBench:テキスト・ビデオ・モデルにおける物理リアリズムの包括的評価
- Authors: Jing Gu, Xian Liu, Yu Zeng, Ashwin Nagarajan, Fangrui Zhu, Daniel Hong, Yue Fan, Qianqi Yan, Kaiwen Zhou, Ming-Yu Liu, Xin Eric Wang,
- Abstract要約: PhyWorldBenchは、物理法則に準拠したビデオ生成モデルを評価するために設計されたベンチマークである。
我々は、現実世界の物理学に故意に違反する「反物理学」という新しいカテゴリーを紹介した。
5つのオープンソースモデルと5つのプロプライエタリモデルを含む12の最先端のテキスト・ビデオ生成モデルを評価する。
- 参考スコア(独自算出の注目度): 38.14213802594432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation models have achieved remarkable progress in creating high-quality, photorealistic content. However, their ability to accurately simulate physical phenomena remains a critical and unresolved challenge. This paper presents PhyWorldBench, a comprehensive benchmark designed to evaluate video generation models based on their adherence to the laws of physics. The benchmark covers multiple levels of physical phenomena, ranging from fundamental principles like object motion and energy conservation to more complex scenarios involving rigid body interactions and human or animal motion. Additionally, we introduce a novel ""Anti-Physics"" category, where prompts intentionally violate real-world physics, enabling the assessment of whether models can follow such instructions while maintaining logical consistency. Besides large-scale human evaluation, we also design a simple yet effective method that could utilize current MLLM to evaluate the physics realism in a zero-shot fashion. We evaluate 12 state-of-the-art text-to-video generation models, including five open-source and five proprietary models, with a detailed comparison and analysis. we identify pivotal challenges models face in adhering to real-world physics. Through systematic testing of their outputs across 1,050 curated prompts-spanning fundamental, composite, and anti-physics scenarios-we identify pivotal challenges these models face in adhering to real-world physics. We then rigorously examine their performance on diverse physical phenomena with varying prompt types, deriving targeted recommendations for crafting prompts that enhance fidelity to physical principles.
- Abstract(参考訳): ビデオ生成モデルは、高品質でフォトリアリスティックなコンテンツを作成するのに顕著な進歩を遂げた。
しかし、物理的現象を正確にシミュレートする能力は、批判的で未解決の課題である。
本稿では,物理法則に従って映像生成モデルを評価するための総合ベンチマークであるPhyWorldBenchを提案する。
このベンチマークは、物体の動きやエネルギー保存といった基本的な原理から、剛体相互作用や人間や動物の動きを含むより複雑なシナリオまで、さまざまな物理現象をカバーしている。
さらに,実世界の物理に意図的に違反し,論理的整合性を維持しながらモデルがそのような命令に従うことができるかどうかを評価できる,新しい「反物理」カテゴリーを導入する。
大規模な人体評価の他に、現在のMLLMを利用してゼロショット方式で物理リアリズムを評価できる簡易で効果的な手法を設計する。
5つのオープンソースモデルと5つのプロプライエタリモデルを含む12の最先端のテキスト・ビデオ生成モデルについて、詳細な比較と分析を行った。
我々はモデルが現実世界の物理学に固執する際に直面する重要な課題を特定します。
1,050のキュレートされたプロンプト、合成、反物理シナリオで出力を体系的にテストすることで、これらのモデルが現実世界の物理学に固執する上で直面する重要な課題を特定した。
そこで,本研究では,物理原理に忠実さを増進するプロンプトの実施を目標とした,様々なプロンプトタイプを用いて,様々な物理現象に対するそれらのパフォーマンスを厳格に検討する。
関連論文リスト
- SlotPi: Physics-informed Object-centric Reasoning Models [37.32107835829927]
物理インフォームドオブジェクト中心推論モデルであるSlotPiを紹介する。
我々の実験は、ベンチマークや流体データセット上での予測や視覚質問応答(VQA)といったタスクにおけるモデルの強みを強調した。
我々は、オブジェクトの相互作用、流体力学、流体オブジェクトの相互作用を含む実世界のデータセットを作成し、モデルの性能を検証した。
論文 参考訳(メタデータ) (2025-06-12T14:53:36Z) - IntPhys 2: Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments [26.02187269408895]
IntPhys 2は、ディープラーニングモデルの直感的な物理理解を評価するために設計されたビデオベンチマークである。
IntPhys 2は、永続性、不変性、時空間連続性、固さという、マクロ的なオブジェクトに関連する4つのコア原則に焦点を当てている。
論文 参考訳(メタデータ) (2025-06-11T15:21:16Z) - PhysGaia: A Physics-Aware Dataset of Multi-Body Interactions for Dynamic Novel View Synthesis [62.283499219361595]
PhysGaiaは動的ノベルビュー合成(DyNVS)のために設計された物理対応のデータセットである。
私たちのデータセットは、複数のオブジェクト間のリッチな相互作用を伴う複雑な動的シナリオを提供します。
PhysGaiaは、動的ビュー合成、物理に基づくシーン理解、および物理シミュレーションと統合されたディープラーニングモデルの研究を著しく前進させる。
論文 参考訳(メタデータ) (2025-06-03T12:19:18Z) - T2VPhysBench: A First-Principles Benchmark for Physical Consistency in Text-to-Video Generation [12.120541052871486]
生成モデルは、美的魅力と正確な指示に優れた高品質なビデオを生成する。
多くの出力は、剛体衝突、エネルギー保存、重力力学といった基本的な制約に反する。
既存の物理的評価ベンチマークは、単純化されたライフシナリオプロンプトに適用される、自動的なピクセルレベルのメトリクスに依存している。
textbfT2VPhysBenchは、最先端のテキスト・ビデオシステムが12の物理法則に従うかどうかを体系的に評価する第一原理ベンチマークである。
論文 参考訳(メタデータ) (2025-05-01T06:34:55Z) - PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models [33.45006997591683]
PHYBenchは、高校から物理オリンピックの難易度まで、500の物理問題のベンチマークである。
PHYBenchはオリジナルのコンテンツを通じてデータの汚染に対処し、欠陥のあるアイテムを除去するために体系的なキュレーションパイプラインを使用する。
PHYBenchはより多くのトークンを活性化し、推論モデル間のより強力な微分を提供する。
論文 参考訳(メタデータ) (2025-04-22T17:53:29Z) - Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments [55.465371691714296]
物理推論に基づく映像生成モデル評価のためのベンチマークであるMorpheusを紹介する。
物理現象を捉えた80の現実世界のビデオが保存法によってガイドされている。
我々の研究結果によると、プロンプトやビデオコンディショニングが進んだとしても、現在のモデルは物理原理をエンコードするのに苦労している。
論文 参考訳(メタデータ) (2025-04-03T15:21:17Z) - PhysTwin: Physics-Informed Reconstruction and Simulation of Deformable Objects from Videos [21.441062722848265]
PhysTwinは、対話中の動的オブジェクトのスパースビデオを使用して、写真と物理的にリアルでリアルタイムなインタラクティブなレプリカを生成する新しいフレームワークである。
提案手法は,(1)現実的な物理シミュレーションのためにバネ質量モデルを組み合わせた物理インフォームド表現,および幾何学のための生成形状モデル,およびレンダリングのためのガウススプラットである。
本手法は,視覚的知覚の手がかりと逆物理の枠組みを統合し,部分的,隠蔽的,限定的な視点からでも高忠実度復元を可能にする。
論文 参考訳(メタデータ) (2025-03-23T07:49:19Z) - Grounding Creativity in Physics: A Brief Survey of Physical Priors in AIGC [14.522189177415724]
AI生成コンテンツの最近の進歩は、3Dおよび4D生成のリアリズムを著しく改善した。
既存の手法の多くは、基礎となる物理原理を無視しながら外観整合性を優先している。
本調査では,物理的制約が3次元および4次元生成にどのように組み込まれているかを体系的に解析する物理認識生成法について概説する。
論文 参考訳(メタデータ) (2025-02-10T20:13:16Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。