論文の概要: Think Before You Diffuse: Infusing Physical Rules into Video Diffusion
- arxiv url: http://arxiv.org/abs/2505.21653v3
- Date: Tue, 07 Oct 2025 07:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:20.585079
- Title: Think Before You Diffuse: Infusing Physical Rules into Video Diffusion
- Title(参考訳): 動画の拡散に物理ルールを注入する「Diffuse」
- Authors: Ke Zhang, Cihan Xiao, Jiacong Xu, Yiqun Mei, Vishal M. Patel,
- Abstract要約: 実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
- 参考スコア(独自算出の注目度): 55.046699347579455
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent video diffusion models have demonstrated their great capability in generating visually-pleasing results, while synthesizing the correct physical effects in generated videos remains challenging. The complexity of real-world motions, interactions, and dynamics introduce great difficulties when learning physics from data. In this work, we propose DiffPhy, a generic framework that enables physically-correct and photo-realistic video generation by fine-tuning a pre-trained video diffusion model. Our method leverages large language models (LLMs) to infer rich physical context from the text prompt. To incorporate this context into the video diffusion model, we use a multimodal large language model (MLLM) to verify intermediate latent variables against the inferred physical rules, guiding the gradient updates of model accordingly. Textual output of LLM is transformed into continuous signals. We then formulate a set of training objectives that jointly ensure physical accuracy and semantic alignment with the input text. Additionally, failure facts of physical phenomena are corrected via attention injection. We also establish a high-quality physical video dataset containing diverse phyiscal actions and events to facilitate effective finetuning. Extensive experiments on public benchmarks demonstrate that DiffPhy is able to produce state-of-the-art results across diverse physics-related scenarios. Our project page is available at https://bwgzk-keke.github.io/DiffPhy/.
- Abstract(参考訳): 近年の映像拡散モデルでは, 映像の正確な物理効果を合成する一方で, 映像を視覚的に再現する能力が非常に高いことが示されている。
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
本研究では,事前学習した映像拡散モデルを微調整することにより,物理的に正確かつリアルな映像生成を可能にする汎用フレームワークであるDiffPhyを提案する。
提案手法は大規模言語モデル(LLM)を利用してテキストプロンプトからリッチな物理的文脈を推定する。
このコンテキストをビデオ拡散モデルに組み込むために,マルチモーダル大言語モデル(MLLM)を用いて,推論された物理規則に対する中間潜時変数の検証を行い,モデルの勾配更新を導出する。
LLMのテキスト出力を連続信号に変換する。
次に、入力テキストと物理的精度とセマンティックアライメントを共同で保証する一連のトレーニング目標を定式化する。
さらに、物理的現象の故障事実は注意注入によって補正される。
また、多様な植物行動やイベントを含む高品質な物理ビデオデータセットを構築し、効果的な微調整を容易にする。
公開ベンチマークに関する大規模な実験は、DiffPhyが様々な物理関連シナリオで最先端の結果を生成できることを実証している。
私たちのプロジェクトページはhttps://bwgzk-keke.github.io/DiffPhy/で公開されています。
関連論文リスト
- PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglement [45.990473754456104]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は、幅広いビデオ言語タスクにおいて印象的なパフォーマンスを示している。
本稿では,物理動作をビデオLLMに明示的に組み込む物理誘導型ビデオ言語フレームワークであるPhyVLLMを提案する。
本稿では,PhyVLLMが物理推論と一般的なビデオ理解の両タスクにおいて,最先端のビデオLLMを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2025-12-04T07:28:56Z) - LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。
現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。
経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文 参考訳(メタデータ) (2025-10-13T15:19:07Z) - TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility [70.24211591214528]
ビデオ生成モデルは、浮動、テレポート、モーフィングのような直感的な物理法則に違反したシーケンスを生成する。
既存のビデオランゲージモデル(VLM)は、物理違反の特定に苦慮し、時間的および因果的推論における根本的な制限を明らかにしている。
我々は、バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせた微調整レシピTRAVLを導入し、モーションエンコーディングを改善する。
言語バイアスを除去し,視覚的時間的理解を分離する300本のビデオ(150本実写150本)のベンチマークであるImplausiBenchを提案する。
論文 参考訳(メタデータ) (2025-10-08T21:03:46Z) - Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals [18.86902152614664]
映像生成のための制御信号として物理力を用いる。
そこで我々は,局所的な力によって画像と対話できる力のプロンプトを提案する。
これらの力のプロンプトによって、ビデオが物理的な制御信号に現実的に反応できることを実証する。
論文 参考訳(メタデータ) (2025-05-26T01:04:02Z) - PhyMAGIC: Physical Motion-Aware Generative Inference with Confidence-guided LLM [17.554471769834453]
一つの画像から物理的に一貫した動きを生成するトレーニング不要のフレームワークであるPhyMAGICを提案する。
PhyMAGICは、事前訓練された画像間拡散モデル、LDMによる信頼誘導推論、微分可能な物理シミュレータを統合する。
総合的な実験により、PhyMAGICは最先端のビデオジェネレータや物理対応のベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-05-22T09:40:34Z) - Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning [53.33388279933842]
本稿では,映像生成における物理的一貫性を実現するために,記号的推論と強化学習を統合することを提案する。
そこで我々は,Phys-ARフレームワークを提案する。第1段階は教師付き微調整を用いて記号的知識を伝達し,第2段階はモデルの推論能力の最適化に強化学習を適用する。
提案手法により,生成したビデオの物理的特性を動的に調整し,改善し,物理法則の遵守を確保することができる。
論文 参考訳(メタデータ) (2025-04-22T14:20:59Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文 参考訳(メタデータ) (2025-03-09T22:49:12Z) - Teaching Video Diffusion Model with Latent Physical Phenomenon Knowledge [49.60640053101214]
本稿では,物理現象の知識が潜むビデオ拡散モデルを教える新しい手法を提案する。
CLIPビジョンと言語エンコーダの空間的関係に基づいて擬似言語プロンプトを生成する。
物理現象の数値シミュレーションと実世界観測の両方を通して,本手法を広範囲に検証した。
論文 参考訳(メタデータ) (2024-11-18T07:26:09Z) - ReinDiffuse: Crafting Physically Plausible Motions with Reinforced Diffusion Model [9.525806425270428]
本稿では、強化学習と運動拡散モデルを組み合わせることで、物理的に信頼できる人間の動きを生成するEmphReinDiffuseを提案する。
動作拡散モデルを用いてパラメータ化された動作分布を出力し、強化学習パラダイムに適合させる。
我々のアプローチは、HumanML3DとKIT-MLという2つの主要なデータセット上で、既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-09T16:24:11Z) - PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos [78.49864987061689]
従来の衝撃音合成法では、音を表現・合成できる物理パラメータのセットを得るために物理シミュレーションを用いていた。
既存のビデオ駆動ディープラーニングベースのアプローチは、視覚コンテンツと衝撃音の間の弱い対応を捉えることしかできなかった。
サイレントビデオクリップに高忠実度衝撃音を合成できる物理駆動拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:59:53Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。