Fugu-MT 論文翻訳(概要): VideoPhy: Evaluating Physical Commonsense for Video Generation

論文の概要: VideoPhy: Evaluating Physical Commonsense for Video Generation

arxiv url: http://arxiv.org/abs/2406.03520v2
Date: Thu, 03 Oct 2024 17:24:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 18:11:59.30575
Title: VideoPhy: Evaluating Physical Commonsense for Video Generation
Title（参考訳）: VideoPhy:ビデオ生成のための物理コモンセンスの評価
Authors: Hritik Bansal, Zongyu Lin, Tianyi Xie, Zeshun Zong, Michal Yarom, Yonatan Bitton, Chenfanfu Jiang, Yizhou Sun, Kai-Wei Chang, Aditya Grover,
Abstract要約: 生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
参考スコア（独自算出の注目度）: 93.28748850301949
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in internet-scale video data pretraining have led to the development of text-to-video generative models that can create high-quality videos across a broad range of visual concepts, synthesize realistic motions and render complex objects. Hence, these generative models have the potential to become general-purpose simulators of the physical world. However, it is unclear how far we are from this goal with the existing text-to-video generative models. To this end, we present VideoPhy, a benchmark designed to assess whether the generated videos follow physical commonsense for real-world activities (e.g. marbles will roll down when placed on a slanted surface). Specifically, we curate diverse prompts that involve interactions between various material types in the physical world (e.g., solid-solid, solid-fluid, fluid-fluid). We then generate videos conditioned on these captions from diverse state-of-the-art text-to-video generative models, including open models (e.g., CogVideoX) and closed models (e.g., Lumiere, Dream Machine). Our human evaluation reveals that the existing models severely lack the ability to generate videos adhering to the given text prompts, while also lack physical commonsense. Specifically, the best performing model, CogVideoX-5B, generates videos that adhere to the caption and physical laws for 39.6% of the instances. VideoPhy thus highlights that the video generative models are far from accurately simulating the physical world. Finally, we propose an auto-evaluator, VideoCon-Physics, to assess the performance reliably for the newly released models.
Abstract（参考訳）: インターネット規模のビデオデータの事前トレーニングの最近の進歩は、様々な視覚的概念にまたがって高品質なビデオを作成し、リアルな動きを合成し、複雑なオブジェクトを描画するテキスト・ビデオ生成モデルの開発につながっている。したがって、これらの生成モデルは、物理世界の汎用シミュレータになる可能性がある。しかし、既存のテキスト・ビデオ生成モデルでは、この目標からどこまで離れているのかは不明だ。この目的のために、生成したビデオが現実世界のアクティビティの物理的なコモンセンスに従うかどうかを評価するために設計されたベンチマークであるVideoPhyを紹介する(例えば、大理石は傾斜した表面に置かれたときにロールダウンする)。具体的には、物理世界における様々な物質間の相互作用を含む多様なプロンプト(例えば、固体流体、固体流体、流体流体)をキュレートする。次に、オープンモデル(例: CogVideoX)やクローズドモデル(例: Lumiere、Dream Machine)など、さまざまな最先端のテキスト・ビデオ生成モデルから、これらのキャプションに条件付けされたビデオを生成する。我々の人間による評価では、既存のモデルは、与えられたテキストプロンプトに忠実なビデオを生成する能力に欠けており、物理コモンセンスも欠如していることが判明した。特に、最高のパフォーマンスモデルであるCogVideoX-5Bは、39.6%のインスタンスのキャプションと物理法則に準拠したビデオを生成する。 VideoPhyは、ビデオ生成モデルは物理的な世界を正確にシミュレートするものではないと強調する。最後に,新しいモデルの性能を確実に評価するための自動評価器,VideoCon-Physicsを提案する。

関連論文リスト

Think Before You Diffuse: LLMs-Guided Physics-Aware Video Generation [28.79821758835663]
DiffPhyは、物理的に正確でリアルなビデオ生成を可能にする汎用的なフレームワークである。本手法は大規模言語モデル(LLM)を活用し,テキストプロンプトから包括的物理的文脈を明示的に推論する。また、多様な植物行動やイベントを含む高品質な物理ビデオデータセットを構築し、効果的な微調整を容易にする。
論文参考訳（メタデータ） (2025-05-27T18:26:43Z)
Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals [18.86902152614664]
映像生成のための制御信号として物理力を用いる。そこで我々は,局所的な力によって画像と対話できる力のプロンプトを提案する。これらの力のプロンプトによって、ビデオが物理的な制御信号に現実的に反応できることを実証する。
論文参考訳（メタデータ） (2025-05-26T01:04:02Z)
Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments [55.465371691714296]
物理推論に基づく映像生成モデル評価のためのベンチマークであるMorpheusを紹介する。物理現象を捉えた80の現実世界のビデオが保存法によってガイドされている。我々の研究結果によると、プロンプトやビデオコンディショニングが進んだとしても、現在のモデルは物理原理をエンコードするのに苦労している。
論文参考訳（メタデータ） (2025-04-03T15:21:17Z)
Impossible Videos [21.16715759223276]
IPV-Benchは、ビデオ理解と生成の進歩を評価するために設計されたベンチマークである。物理的、生物学的、地理的、社会的な法則に反する多様な場面が特徴である。不可能なビデオを理解する能力に基づいて、ビデオLLMを評価するためのベンチマークが作成されている。
論文参考訳（メタデータ） (2025-03-18T16:10:24Z)
VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文参考訳（メタデータ） (2025-03-09T22:49:12Z)
Video Creation by Demonstration [59.389591010842636]
我々は、条件付き将来のフレーム予測によってラベルなしビデオから学習する自己教師型トレーニングアプローチである$delta$-Diffusionを提案する。映像基盤モデルと外観ボトルネック設計を併用して,実演映像から動作遅延を抽出し,生成プロセスの条件付けを行う。実証的に、$delta$-Diffusionは人間の好みと大規模マシン評価の両方の観点から、関連するベースラインを上回っている。
論文参考訳（メタデータ） (2024-12-12T18:41:20Z)
PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文参考訳（メタデータ） (2024-09-27T17:59:57Z)
4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文参考訳（メタデータ） (2024-06-11T17:19:26Z)
MotionCraft: Physics-based Zero-Shot Video Generation [22.33113030344355]
MotionCraftは物理ベースのリアルなビデオを作るためのゼロショットビデオジェネレータだ。安定拡散のような画像拡散モデルのノイズ潜時空間を光学的流れを適用することにより、MotionCraftがワープできることが示される。我々は,この手法を最先端のText2Video-Zeroレポートと比較し,質的,定量的に改善した。
論文参考訳（メタデータ） (2024-05-22T11:44:57Z)
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators [56.01348424615965]
我々は,リアルタイムな物理知識をタイムラプスビデオから学習し,メタモルフィック生成を実装する,タイムラプスビデオ生成モデルであるtextbfMagicTimeを提案する。実験は、高品質でダイナミックなメタモルフィックビデオを生成するためにMagicTimeの優位性と有効性を示す。
論文参考訳（メタデータ） (2024-04-07T16:49:07Z)
Probabilistic Adaptation of Text-to-Video Models [181.84311524681536]
Video Adapterは、タスク固有の小さなビデオモデルに、幅広い知識を取り入れ、大きな事前訓練されたビデオモデルの忠実度を維持することができる。 Video Adapterは、アニメーション、エゴセントリックなモデリング、シミュレートされた実世界のロボティクスデータのモデリングなど、さまざまなタスクで高品質で特殊なビデオを生成することができる。
論文参考訳（メタデータ） (2023-06-02T19:00:17Z)
Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文参考訳（メタデータ） (2023-05-06T09:07:01Z)
Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文参考訳（メタデータ） (2022-10-05T14:41:38Z)
Video Content Swapping Using GAN [1.2300363114433952]
この作業では、ビデオの任意のフレームをコンテンツとポーズに分解します。まず、事前訓練された人間のポーズ検出を用いて映像からポーズ情報を抽出し、生成モデルを用いてコンテンツコードに基づいて映像を合成し、コードを合成する。
論文参考訳（メタデータ） (2021-11-21T23:01:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。