論文の概要: VideoPhy: Evaluating Physical Commonsense for Video Generation
- arxiv url: http://arxiv.org/abs/2406.03520v2
- Date: Thu, 03 Oct 2024 17:24:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:53:15.232380
- Title: VideoPhy: Evaluating Physical Commonsense for Video Generation
- Title(参考訳): VideoPhy:ビデオ生成のための物理コモンセンスの評価
- Authors: Hritik Bansal, Zongyu Lin, Tianyi Xie, Zeshun Zong, Michal Yarom, Yonatan Bitton, Chenfanfu Jiang, Yizhou Sun, Kai-Wei Chang, Aditya Grover,
- Abstract要約: 生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
- 参考スコア(独自算出の注目度): 93.28748850301949
- License:
- Abstract: Recent advances in internet-scale video data pretraining have led to the development of text-to-video generative models that can create high-quality videos across a broad range of visual concepts, synthesize realistic motions and render complex objects. Hence, these generative models have the potential to become general-purpose simulators of the physical world. However, it is unclear how far we are from this goal with the existing text-to-video generative models. To this end, we present VideoPhy, a benchmark designed to assess whether the generated videos follow physical commonsense for real-world activities (e.g. marbles will roll down when placed on a slanted surface). Specifically, we curate diverse prompts that involve interactions between various material types in the physical world (e.g., solid-solid, solid-fluid, fluid-fluid). We then generate videos conditioned on these captions from diverse state-of-the-art text-to-video generative models, including open models (e.g., CogVideoX) and closed models (e.g., Lumiere, Dream Machine). Our human evaluation reveals that the existing models severely lack the ability to generate videos adhering to the given text prompts, while also lack physical commonsense. Specifically, the best performing model, CogVideoX-5B, generates videos that adhere to the caption and physical laws for 39.6% of the instances. VideoPhy thus highlights that the video generative models are far from accurately simulating the physical world. Finally, we propose an auto-evaluator, VideoCon-Physics, to assess the performance reliably for the newly released models.
- Abstract(参考訳): インターネット規模のビデオデータの事前トレーニングの最近の進歩は、様々な視覚的概念にまたがって高品質なビデオを作成し、リアルな動きを合成し、複雑なオブジェクトを描画するテキスト・ビデオ生成モデルの開発につながっている。
したがって、これらの生成モデルは、物理世界の汎用シミュレータになる可能性がある。
しかし、既存のテキスト・ビデオ生成モデルでは、この目標からどこまで離れているのかは不明だ。
この目的のために、生成したビデオが現実世界のアクティビティの物理的なコモンセンスに従うかどうかを評価するために設計されたベンチマークであるVideoPhyを紹介する(例えば、大理石は傾斜した表面に置かれたときにロールダウンする)。
具体的には、物理世界における様々な物質間の相互作用を含む多様なプロンプト(例えば、固体流体、固体流体、流体流体)をキュレートする。
次に、オープンモデル(例: CogVideoX)やクローズドモデル(例: Lumiere、Dream Machine)など、さまざまな最先端のテキスト・ビデオ生成モデルから、これらのキャプションに条件付けされたビデオを生成する。
我々の人間による評価では、既存のモデルは、与えられたテキストプロンプトに忠実なビデオを生成する能力に欠けており、物理コモンセンスも欠如していることが判明した。
特に、最高のパフォーマンスモデルであるCogVideoX-5Bは、39.6%のインスタンスのキャプションと物理法則に準拠したビデオを生成する。
VideoPhyは、ビデオ生成モデルは物理的な世界を正確にシミュレートするものではないと強調する。
最後に,新しいモデルの性能を確実に評価するための自動評価器,VideoCon-Physicsを提案する。
関連論文リスト
- DreamPhysics: Learning Physical Properties of Dynamic 3D Gaussians with Video Diffusion Priors [77.34056839349076]
本稿では,3次元ガウス散乱の物理特性をビデオ拡散先行値で推定するDreamPhysicsを提案する。
本手法は,適切な物理パラメータを持つ物質点法シミュレータに基づいて,現実的な動きを持つ4次元コンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z) - MotionCraft: Physics-based Zero-Shot Video Generation [22.33113030344355]
MotionCraftは物理ベースのリアルなビデオを作るためのゼロショットビデオジェネレータだ。
安定拡散のような画像拡散モデルのノイズ潜時空間を光学的流れを適用することにより、MotionCraftがワープできることが示される。
我々は,この手法を最先端のText2Video-Zeroレポートと比較し,質的,定量的に改善した。
論文 参考訳(メタデータ) (2024-05-22T11:44:57Z) - MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators [56.01348424615965]
我々は,リアルタイムな物理知識をタイムラプスビデオから学習し,メタモルフィック生成を実装する,タイムラプスビデオ生成モデルであるtextbfMagicTimeを提案する。
実験は、高品質でダイナミックなメタモルフィックビデオを生成するためにMagicTimeの優位性と有効性を示す。
論文 参考訳(メタデータ) (2024-04-07T16:49:07Z) - Analyzing Zero-Shot Abilities of Vision-Language Models on Video
Understanding Tasks [6.925770576386087]
本稿では,ゼロショット環境における映像理解タスクの評価において,画像テキストモデルの一般化能力について詳細に検討する。
実験の結果,映像テキストモデルでは,映像AR,ビデオRT,ビデオMCに優れた性能を示すことがわかった。
これらの結果は、コストのかかる事前学習のステップを回避しつつ、基礎的な画像テキストモデルを一連のビデオタスクに適応する利点を浮き彫りにした。
論文 参考訳(メタデータ) (2023-10-07T20:57:54Z) - Probabilistic Adaptation of Text-to-Video Models [181.84311524681536]
Video Adapterは、タスク固有の小さなビデオモデルに、幅広い知識を取り入れ、大きな事前訓練されたビデオモデルの忠実度を維持することができる。
Video Adapterは、アニメーション、エゴセントリックなモデリング、シミュレートされた実世界のロボティクスデータのモデリングなど、さまざまなタスクで高品質で特殊なビデオを生成することができる。
論文 参考訳(メタデータ) (2023-06-02T19:00:17Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Video Content Swapping Using GAN [1.2300363114433952]
この作業では、ビデオの任意のフレームをコンテンツとポーズに分解します。
まず、事前訓練された人間のポーズ検出を用いて映像からポーズ情報を抽出し、生成モデルを用いてコンテンツコードに基づいて映像を合成し、コードを合成する。
論文 参考訳(メタデータ) (2021-11-21T23:01:58Z) - RELATE: Physically Plausible Multi-Object Scene Synthesis Using
Structured Latent Spaces [77.07767833443256]
RELATEは、複数の対話オブジェクトの物理的に可視なシーンとビデオを生成することを学習するモデルである。
オブジェクト中心生成モデリングにおける最先端の手法とは対照的に、RELATEは自然に動的なシーンに拡張し、高い視覚的忠実度のビデオを生成する。
論文 参考訳(メタデータ) (2020-07-02T17:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。