論文の概要: Think Before You Diffuse: LLMs-Guided Physics-Aware Video Generation
- arxiv url: http://arxiv.org/abs/2505.21653v1
- Date: Tue, 27 May 2025 18:26:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.230855
- Title: Think Before You Diffuse: LLMs-Guided Physics-Aware Video Generation
- Title(参考訳): LLMを応用した物理対応ビデオ生成技術
- Authors: Ke Zhang, Cihan Xiao, Yiqun Mei, Jiacong Xu, Vishal M. Patel,
- Abstract要約: DiffPhyは、物理的に正確でリアルなビデオ生成を可能にする汎用的なフレームワークである。
本手法は大規模言語モデル(LLM)を活用し,テキストプロンプトから包括的物理的文脈を明示的に推論する。
また、多様な植物行動やイベントを含む高品質な物理ビデオデータセットを構築し、効果的な微調整を容易にする。
- 参考スコア(独自算出の注目度): 28.79821758835663
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent video diffusion models have demonstrated their great capability in generating visually-pleasing results, while synthesizing the correct physical effects in generated videos remains challenging. The complexity of real-world motions, interactions, and dynamics introduce great difficulties when learning physics from data. In this work, we propose DiffPhy, a generic framework that enables physically-correct and photo-realistic video generation by fine-tuning a pre-trained video diffusion model. Our method leverages large language models (LLMs) to explicitly reason a comprehensive physical context from the text prompt and use it to guide the generation. To incorporate physical context into the diffusion model, we leverage a Multimodal large language model (MLLM) as a supervisory signal and introduce a set of novel training objectives that jointly enforce physical correctness and semantic consistency with the input text. We also establish a high-quality physical video dataset containing diverse phyiscal actions and events to facilitate effective finetuning. Extensive experiments on public benchmarks demonstrate that DiffPhy is able to produce state-of-the-art results across diverse physics-related scenarios. Our project page is available at https://bwgzk-keke.github.io/DiffPhy/
- Abstract(参考訳): 近年の映像拡散モデルでは, 映像の正確な物理効果を合成する一方で, 映像を視覚的に再現する能力が非常に高いことが示されている。
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
本研究では,事前学習した映像拡散モデルを微調整することにより,物理的に正確かつリアルな映像生成を可能にする汎用フレームワークであるDiffPhyを提案する。
提案手法は大規模言語モデル(LLM)を利用して,テキストプロンプトから包括的物理的文脈を明示的に推論し,それを用いて生成を誘導する。
物理コンテキストを拡散モデルに組み込むために,マルチモーダル大言語モデル(MLLM)を補助信号として利用し,入力テキストとの物理的正しさと意味的整合性を両立させる新しい学習目標のセットを導入する。
また、多様な植物行動やイベントを含む高品質な物理ビデオデータセットを構築し、効果的な微調整を容易にする。
公開ベンチマークに関する大規模な実験は、DiffPhyが様々な物理関連シナリオで最先端の結果を生成できることを実証している。
私たちのプロジェクトページはhttps://bwgzk-keke.github.io/DiffPhy/で公開されています。
関連論文リスト
- VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - Teaching Video Diffusion Model with Latent Physical Phenomenon Knowledge [49.60640053101214]
本稿では,物理現象の知識が潜むビデオ拡散モデルを教える新しい手法を提案する。
CLIPビジョンと言語エンコーダの空間的関係に基づいて擬似言語プロンプトを生成する。
物理現象の数値シミュレーションと実世界観測の両方を通して,本手法を広範囲に検証した。
論文 参考訳(メタデータ) (2024-11-18T07:26:09Z) - ReinDiffuse: Crafting Physically Plausible Motions with Reinforced Diffusion Model [9.525806425270428]
本稿では、強化学習と運動拡散モデルを組み合わせることで、物理的に信頼できる人間の動きを生成するEmphReinDiffuseを提案する。
動作拡散モデルを用いてパラメータ化された動作分布を出力し、強化学習パラダイムに適合させる。
我々のアプローチは、HumanML3DとKIT-MLという2つの主要なデータセット上で、既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-09T16:24:11Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。