論文の概要: VideoPhy: Evaluating Physical Commonsense for Video Generation
- arxiv url: http://arxiv.org/abs/2406.03520v1
- Date: Wed, 5 Jun 2024 17:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 19:24:39.174398
- Title: VideoPhy: Evaluating Physical Commonsense for Video Generation
- Title(参考訳): VideoPhy:ビデオ生成のための物理コモンセンスの評価
- Authors: Hritik Bansal, Zongyu Lin, Tianyi Xie, Zeshun Zong, Michal Yarom, Yonatan Bitton, Chenfanfu Jiang, Yizhou Sun, Kai-Wei Chang, Aditya Grover,
- Abstract要約: 生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
具体的には、物理世界における様々な素材間の相互作用を含む688のキャプションのリストをキュレートする。
私たちは、オープンモデル(例: VideoCrafter2)やクローズドモデル(例: GoogleのLumiere、Pika)など、さまざまな最先端のテキスト・ビデオ生成モデルから、これらのキャプションに条件付けされたビデオを生成します。
- 参考スコア(独自算出の注目度): 93.28748850301949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in internet-scale video data pretraining have led to the development of text-to-video generative models that can create high-quality videos across a broad range of visual concepts and styles. Due to their ability to synthesize realistic motions and render complex objects, these generative models have the potential to become general-purpose simulators of the physical world. However, it is unclear how far we are from this goal with the existing text-to-video generative models. To this end, we present VideoPhy, a benchmark designed to assess whether the generated videos follow physical commonsense for real-world activities (e.g. marbles will roll down when placed on a slanted surface). Specifically, we curate a list of 688 captions that involve interactions between various material types in the physical world (e.g., solid-solid, solid-fluid, fluid-fluid). We then generate videos conditioned on these captions from diverse state-of-the-art text-to-video generative models, including open models (e.g., VideoCrafter2) and closed models (e.g., Lumiere from Google, Pika). Further, our human evaluation reveals that the existing models severely lack the ability to generate videos adhering to the given text prompts, while also lack physical commonsense. Specifically, the best performing model, Pika, generates videos that adhere to the caption and physical laws for only 19.7% of the instances. VideoPhy thus highlights that the video generative models are far from accurately simulating the physical world. Finally, we also supplement the dataset with an auto-evaluator, VideoCon-Physics, to assess semantic adherence and physical commonsense at scale.
- Abstract(参考訳): インターネット規模のビデオデータの事前トレーニングの最近の進歩は、様々な視覚概念やスタイルで高品質な動画を作成できるテキスト・ビデオ生成モデルの開発につながっている。
現実的な動きを合成し、複雑な物体をレンダリングする能力により、これらの生成モデルは物理世界の汎用シミュレータになる可能性がある。
しかし、既存のテキスト・ビデオ生成モデルでは、この目標からどこまで離れているのかは不明だ。
この目的のために、生成したビデオが現実世界のアクティビティの物理的なコモンセンスに従うかどうかを評価するために設計されたベンチマークであるVideoPhyを紹介する(例えば、大理石は傾斜した表面に置かれたときにロールダウンする)。
具体的には、物理世界における様々な物質種間の相互作用を含む688のキャプションのリスト(例えば、固形固形流体、固形流体、流体流体)をキュレートする。
次に、オープンモデル(例: VideoCrafter2)やクローズドモデル(例: Google, Pika)など、さまざまな最先端のテキスト・ビデオ生成モデルから、これらのキャプションに条件付けされたビデオを生成します。
さらに,人間による評価の結果,既存のモデルではテキストプロンプトに忠実な動画を生成する能力が乏しく,物理的コモンセンスも欠如していることが判明した。
具体的には、最高のパフォーマンスモデルであるピカは、19.7%のインスタンスでキャプションと物理法に準拠するビデオを生成する。
VideoPhyは、ビデオ生成モデルは物理的な世界を正確にシミュレートするものではないと強調する。
最後に、データセットを自動評価器であるVideoCon-Physicsで補足し、意味的定着と物理的常識を大規模に評価する。
関連論文リスト
- PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z) - 4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。
提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。
次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文 参考訳(メタデータ) (2024-06-11T17:19:26Z) - MotionCraft: Physics-based Zero-Shot Video Generation [22.33113030344355]
MotionCraftは物理ベースのリアルなビデオを作るためのゼロショットビデオジェネレータだ。
安定拡散のような画像拡散モデルのノイズ潜時空間を光学的流れを適用することにより、MotionCraftがワープできることが示される。
我々は,この手法を最先端のText2Video-Zeroレポートと比較し,質的,定量的に改善した。
論文 参考訳(メタデータ) (2024-05-22T11:44:57Z) - MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators [56.01348424615965]
我々は,リアルタイムな物理知識をタイムラプスビデオから学習し,メタモルフィック生成を実装する,タイムラプスビデオ生成モデルであるtextbfMagicTimeを提案する。
実験は、高品質でダイナミックなメタモルフィックビデオを生成するためにMagicTimeの優位性と有効性を示す。
論文 参考訳(メタデータ) (2024-04-07T16:49:07Z) - Probabilistic Adaptation of Text-to-Video Models [181.84311524681536]
Video Adapterは、タスク固有の小さなビデオモデルに、幅広い知識を取り入れ、大きな事前訓練されたビデオモデルの忠実度を維持することができる。
Video Adapterは、アニメーション、エゴセントリックなモデリング、シミュレートされた実世界のロボティクスデータのモデリングなど、さまざまなタスクで高品質で特殊なビデオを生成することができる。
論文 参考訳(メタデータ) (2023-06-02T19:00:17Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z) - Video Content Swapping Using GAN [1.2300363114433952]
この作業では、ビデオの任意のフレームをコンテンツとポーズに分解します。
まず、事前訓練された人間のポーズ検出を用いて映像からポーズ情報を抽出し、生成モデルを用いてコンテンツコードに基づいて映像を合成し、コードを合成する。
論文 参考訳(メタデータ) (2021-11-21T23:01:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。