論文の概要: Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation
- arxiv url: http://arxiv.org/abs/2410.05363v1
- Date: Mon, 7 Oct 2024 17:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 19:07:22.203952
- Title: Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation
- Title(参考訳): World Simulatorに向けて:ビデオ生成のための物理コモンセンスに基づくベンチマークの構築
- Authors: Fanqing Meng, Jiaqi Liao, Xinyu Tan, Wenqi Shao, Quanfeng Lu, Kaipeng Zhang, Yu Cheng, Dianqi Li, Yu Qiao, Ping Luo,
- Abstract要約: テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
- 参考スコア(独自算出の注目度): 51.750634349748736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video (T2V) models like Sora have made significant strides in visualizing complex prompts, which is increasingly viewed as a promising path towards constructing the universal world simulator. Cognitive psychologists believe that the foundation for achieving this goal is the ability to understand intuitive physics. However, the capacity of these models to accurately represent intuitive physics remains largely unexplored. To bridge this gap, we introduce PhyGenBench, a comprehensive \textbf{Phy}sics \textbf{Gen}eration \textbf{Ben}chmark designed to evaluate physical commonsense correctness in T2V generation. PhyGenBench comprises 160 carefully crafted prompts across 27 distinct physical laws, spanning four fundamental domains, which could comprehensively assesses models' understanding of physical commonsense. Alongside PhyGenBench, we propose a novel evaluation framework called PhyGenEval. This framework employs a hierarchical evaluation structure utilizing appropriate advanced vision-language models and large language models to assess physical commonsense. Through PhyGenBench and PhyGenEval, we can conduct large-scale automated assessments of T2V models' understanding of physical commonsense, which align closely with human feedback. Our evaluation results and in-depth analysis demonstrate that current models struggle to generate videos that comply with physical commonsense. Moreover, simply scaling up models or employing prompt engineering techniques is insufficient to fully address the challenges presented by PhyGenBench (e.g., dynamic scenarios). We hope this study will inspire the community to prioritize the learning of physical commonsense in these models beyond entertainment applications. We will release the data and codes at https://github.com/OpenGVLab/PhyGenBench
- Abstract(参考訳): Soraのようなテキスト・ツー・ビデオ(T2V)モデルは、複雑なプロンプトの可視化に大きく貢献している。
認知心理学者は、この目標を達成するための基盤は直感的な物理学を理解する能力であると考えている。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
このギャップを埋めるために、T2V 生成における物理コモンセンスの正しさを評価するために設計された包括的 \textbf{Phy}sics \textbf{Gen}eration \textbf{Ben}chmark である PhyGenBench を導入する。
PhyGenBenchは、27の異なる物理法則にまたがる160の注意深いプロンプトで構成されており、4つの基本的なドメインにまたがっており、モデルの物理的常識に対する理解を包括的に評価することができる。
PhyGenBenchとともに、PhyGenEvalと呼ばれる新しい評価フレームワークを提案する。
このフレームワークは、物理コモンセンスを評価するために、適切な高度な視覚言語モデルと大規模言語モデルを利用する階層的評価構造を用いる。
PhyGenBench と PhyGenEval を通じて、人間のフィードバックと密接に一致した物理コモンセンスに対する T2V モデルの理解を大規模に自動評価することができる。
評価結果と詳細な分析により、現在のモデルは、物理コモンセンスに準拠したビデオを生成するのに苦労していることが示された。
さらに、モデルのスケールアップや迅速なエンジニアリング技術を採用するだけでは、PhyGenBench(動的シナリオなど)の課題を完全に解決するには不十分です。
この研究は、エンターテイメントの応用を超えて、これらのモデルにおける物理的なコモンセンスの学習をコミュニティに優先させることを願っている。
https://github.com/OpenGVLab/PhyGenBenchでデータとコードを公開します。
関連論文リスト
- PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - GRASP: A novel benchmark for evaluating language GRounding And Situated Physics understanding in multimodal language models [4.354672867211922]
本稿では,ビデオベースマルチモーダル大言語モデル(LLM)の言語基盤と物理的理解能力を評価するための新しいベンチマークGRASPを提案する。
我々は、最先端のマルチモーダルLCMの評価にそれを用いている。
評価の結果,これらのモデルの言語基盤化や直感的な物理能力に重大な欠陥があることが判明した。
論文 参考訳(メタデータ) (2023-11-15T15:38:28Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。