論文の概要: VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation
- arxiv url: http://arxiv.org/abs/2503.06800v1
- Date: Sun, 09 Mar 2025 22:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:28.021007
- Title: VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation
- Title(参考訳): VideoPhy-2:ビデオ生成における干渉行動中心の物理コモンセンス評価
- Authors: Hritik Bansal, Clark Peng, Yonatan Bitton, Roman Goldenberg, Aditya Grover, Kai-Wei Chang,
- Abstract要約: VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
- 参考スコア(独自算出の注目度): 66.58048825989239
- License:
- Abstract: Large-scale video generative models, capable of creating realistic videos of diverse visual concepts, are strong candidates for general-purpose physical world simulators. However, their adherence to physical commonsense across real-world actions remains unclear (e.g., playing tennis, backflip). Existing benchmarks suffer from limitations such as limited size, lack of human evaluation, sim-to-real gaps, and absence of fine-grained physical rule analysis. To address this, we introduce VideoPhy-2, an action-centric dataset for evaluating physical commonsense in generated videos. We curate 200 diverse actions and detailed prompts for video synthesis from modern generative models. We perform human evaluation that assesses semantic adherence, physical commonsense, and grounding of physical rules in the generated videos. Our findings reveal major shortcomings, with even the best model achieving only 22% joint performance (i.e., high semantic and physical commonsense adherence) on the hard subset of VideoPhy-2. We find that the models particularly struggle with conservation laws like mass and momentum. Finally, we also train VideoPhy-AutoEval, an automatic evaluator for fast, reliable assessment on our dataset. Overall, VideoPhy-2 serves as a rigorous benchmark, exposing critical gaps in video generative models and guiding future research in physically-grounded video generation. The data and code is available at https://videophy2.github.io/.
- Abstract(参考訳): 多様な視覚概念のリアルなビデオを作成することができる大規模ビデオ生成モデルは、汎用物理世界シミュレーターの強力な候補である。
しかし、実世界の行動にまたがる物理的なコモンセンスへの固執(テニス、バックフリップなど)はいまだに不明である。
既存のベンチマークでは、サイズ制限、人間の評価の欠如、シム・トゥ・リアルのギャップ、微粒な物理ルール分析の欠如といった制限に悩まされている。
これを解決するために、生成されたビデオの物理コモンセンスを評価するアクション中心のデータセットであるVideoPhy-2を紹介する。
我々は、現代の生成モデルからビデオ合成を行うために、200の多様なアクションと詳細なプロンプトをキュレートする。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
その結果,ビデオPhy-2のハードサブセットでは,最高のモデルでも22%のジョイントパフォーマンス(高いセマンティクスと物理的コモンセンスの付着)を達成できた。
モデルが特に、質量や運動量といった保存法則に苦戦していることがわかりました。
最後に、データセットの高速で信頼性の高い評価のための自動評価ツールであるVideoPhy-AutoEvalをトレーニングします。
全体として、VideoPhy-2は厳格なベンチマークとして機能し、ビデオ生成モデルにおける重要なギャップを明らかにし、物理的にグラウンド化されたビデオ生成における将来の研究を導く。
データとコードはhttps://videophy2.github.io/.com/で公開されている。
関連論文リスト
- A Physical Coherence Benchmark for Evaluating Video Generation Models via Optical Flow-guided Frame Prediction [2.5262441079541285]
本稿では,生成されたビデオの物理コヒーレンスを評価するためのベンチマークPhyCoBenchを紹介する。
われわれのベンチマークでは、120のプロンプトが7つのカテゴリの物理原理をカバーし、ビデオコンテンツで観察できる重要な物理法則を捉えている。
本稿では,光学フローと映像フレームをカスケード的に生成する拡散モデルであるPhyCoPredictorを提案する。
論文 参考訳(メタデータ) (2025-02-08T09:31:26Z) - PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos [66.09921831504238]
ゲームプレイビデオにおける物理コモンセンス違反を評価するための先駆的ベンチマークとしてPhysGameを提案する。
以上の結果から,現在のオープンソースビデオLLMのパフォーマンスは,プロプライエタリビデオよりも大幅に遅れていることが明らかとなった。
このデータセットに基づいて,PhysVLMを物理知識強化ビデオLLMとして提案する。
論文 参考訳(メタデータ) (2024-12-02T18:47:25Z) - How Far is Video Generation from World Model: A Physical Law Perspective [101.24278831609249]
OpenAIのSoraは、物理法則に準拠した世界モデルを開発するためのビデオ生成の可能性を強調している。
しかし、ビデオ生成モデルが人間の先行しない視覚データから純粋にそのような法則を発見する能力に疑問を投げかけることができる。
本研究は,3つの主要なシナリオ – 分布内,分布外,一般化 – について評価する。
論文 参考訳(メタデータ) (2024-11-04T18:53:05Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。