論文の概要: VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation
- arxiv url: http://arxiv.org/abs/2503.06800v1
- Date: Sun, 09 Mar 2025 22:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 20:09:44.641946
- Title: VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation
- Title(参考訳): VideoPhy-2:ビデオ生成における干渉行動中心の物理コモンセンス評価
- Authors: Hritik Bansal, Clark Peng, Yonatan Bitton, Roman Goldenberg, Aditya Grover, Kai-Wei Chang,
- Abstract要約: VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
- 参考スコア(独自算出の注目度): 66.58048825989239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale video generative models, capable of creating realistic videos of diverse visual concepts, are strong candidates for general-purpose physical world simulators. However, their adherence to physical commonsense across real-world actions remains unclear (e.g., playing tennis, backflip). Existing benchmarks suffer from limitations such as limited size, lack of human evaluation, sim-to-real gaps, and absence of fine-grained physical rule analysis. To address this, we introduce VideoPhy-2, an action-centric dataset for evaluating physical commonsense in generated videos. We curate 200 diverse actions and detailed prompts for video synthesis from modern generative models. We perform human evaluation that assesses semantic adherence, physical commonsense, and grounding of physical rules in the generated videos. Our findings reveal major shortcomings, with even the best model achieving only 22% joint performance (i.e., high semantic and physical commonsense adherence) on the hard subset of VideoPhy-2. We find that the models particularly struggle with conservation laws like mass and momentum. Finally, we also train VideoPhy-AutoEval, an automatic evaluator for fast, reliable assessment on our dataset. Overall, VideoPhy-2 serves as a rigorous benchmark, exposing critical gaps in video generative models and guiding future research in physically-grounded video generation. The data and code is available at https://videophy2.github.io/.
- Abstract(参考訳): 多様な視覚概念のリアルなビデオを作成することができる大規模ビデオ生成モデルは、汎用物理世界シミュレーターの強力な候補である。
しかし、実世界の行動にまたがる物理的なコモンセンスへの固執(テニス、バックフリップなど)はいまだに不明である。
既存のベンチマークでは、サイズ制限、人間の評価の欠如、シム・トゥ・リアルのギャップ、微粒な物理ルール分析の欠如といった制限に悩まされている。
これを解決するために、生成されたビデオの物理コモンセンスを評価するアクション中心のデータセットであるVideoPhy-2を紹介する。
我々は、現代の生成モデルからビデオ合成を行うために、200の多様なアクションと詳細なプロンプトをキュレートする。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
その結果,ビデオPhy-2のハードサブセットでは,最高のモデルでも22%のジョイントパフォーマンス(高いセマンティクスと物理的コモンセンスの付着)を達成できた。
モデルが特に、質量や運動量といった保存法則に苦戦していることがわかりました。
最後に、データセットの高速で信頼性の高い評価のための自動評価ツールであるVideoPhy-AutoEvalをトレーニングします。
全体として、VideoPhy-2は厳格なベンチマークとして機能し、ビデオ生成モデルにおける重要なギャップを明らかにし、物理的にグラウンド化されたビデオ生成における将来の研究を導く。
データとコードはhttps://videophy2.github.io/.com/で公開されている。
関連論文リスト
- T2VPhysBench: A First-Principles Benchmark for Physical Consistency in Text-to-Video Generation [12.120541052871486]
生成モデルは、美的魅力と正確な指示に優れた高品質なビデオを生成する。
多くの出力は、剛体衝突、エネルギー保存、重力力学といった基本的な制約に反する。
既存の物理的評価ベンチマークは、単純化されたライフシナリオプロンプトに適用される、自動的なピクセルレベルのメトリクスに依存している。
textbfT2VPhysBenchは、最先端のテキスト・ビデオシステムが12の物理法則に従うかどうかを体系的に評価する第一原理ベンチマークである。
論文 参考訳(メタデータ) (2025-05-01T06:34:55Z) - Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments [55.465371691714296]
物理推論に基づく映像生成モデル評価のためのベンチマークであるMorpheusを紹介する。
物理現象を捉えた80の現実世界のビデオが保存法によってガイドされている。
我々の研究結果によると、プロンプトやビデオコンディショニングが進んだとしても、現在のモデルは物理原理をエンコードするのに苦労している。
論文 参考訳(メタデータ) (2025-04-03T15:21:17Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness [76.16523963623537]
本稿では,本質的な忠実度を示すビデオ生成モデルを評価するためのベンチマークであるVBench-2.0を紹介する。
VBench-2.0は、人間の忠実さ、コントロール可能性、創造性、物理学、コモンセンスの5つの重要な次元を評価している。
VBench-2.0は、表面的な忠実性から本質的な忠実性までを推し進めることで、次世代のビデオ生成モデルの新たな標準を確立することを目指している。
論文 参考訳(メタデータ) (2025-03-27T17:57:01Z) - GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning [62.775721264492994]
GRADEOは、最初に設計されたビデオ評価モデルの1つである。
説明可能なスコアと評価のためにAIが生成したビデオを、多段階の推論によって評価する。
実験の結果,本手法は既存手法よりも人的評価に適合していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T07:04:55Z) - A Physical Coherence Benchmark for Evaluating Video Generation Models via Optical Flow-guided Frame Prediction [2.5262441079541285]
本稿では,生成されたビデオの物理コヒーレンスを評価するためのベンチマークPhyCoBenchを紹介する。
われわれのベンチマークでは、120のプロンプトが7つのカテゴリの物理原理をカバーし、ビデオコンテンツで観察できる重要な物理法則を捉えている。
本稿では,光学フローと映像フレームをカスケード的に生成する拡散モデルであるPhyCoPredictorを提案する。
論文 参考訳(メタデータ) (2025-02-08T09:31:26Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。