論文の概要: Chain of Event-Centric Causal Thought for Physically Plausible Video Generation
- arxiv url: http://arxiv.org/abs/2603.09094v1
- Date: Tue, 10 Mar 2026 02:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.943587
- Title: Chain of Event-Centric Causal Thought for Physically Plausible Video Generation
- Title(参考訳): 物理的にプラズブルな映像生成のための事象中心因果思考の連鎖
- Authors: Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie Lei,
- Abstract要約: 物理的に可塑性のビデオ生成(PPVG)は、現実世界の物理現象をモデル化するための有望な道として登場した。
現在のアプローチでは、物理概念をプロンプトに埋め込むために、大きな言語モデルの常識推論能力を活用している。
本稿では,PPVGが因果的に連結され,動的に進化する事象の系列を生成するとみなす。
- 参考スコア(独自算出の注目度): 41.53933387975629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Physically Plausible Video Generation (PPVG) has emerged as a promising avenue for modeling real-world physical phenomena. PPVG requires an understanding of commonsense knowledge, which remains a challenge for video diffusion models. Current approaches leverage commonsense reasoning capability of large language models to embed physical concepts into prompts. However, generation models often render physical phenomena as a single moment defined by prompts, due to the lack of conditioning mechanisms for modeling causal progression. In this paper, we view PPVG as generating a sequence of causally connected and dynamically evolving events. To realize this paradigm, we design two key modules: (1) Physics-driven Event Chain Reasoning. This module decomposes the physical phenomena described in prompts into multiple elementary event units, leveraging chain-of-thought reasoning. To mitigate causal ambiguity, we embed physical formulas as constraints to impose deterministic causal dependencies during reasoning. (2) Transition-aware Cross-modal Prompting (TCP). To maintain continuity between events, this module transforms causal event units into temporally aligned vision-language prompts. It summarizes discrete event descriptions to obtain causally consistent narratives, while progressively synthesizing visual keyframes of individual events by interactive editing. Comprehensive experiments on PhyGenBench and VideoPhy benchmarks demonstrate that our framework achieves superior performance in generating physically plausible videos across diverse physical domains. Our code will be released soon.
- Abstract(参考訳): 物理的に可塑性のビデオ生成(PPVG)は、現実世界の物理現象をモデル化するための有望な道として登場した。
PPVGはコモンセンス知識の理解を必要とするが、これはビデオ拡散モデルの課題である。
現在のアプローチでは、物理概念をプロンプトに埋め込むために、大きな言語モデルの常識推論能力を活用している。
しかしながら、生成モデルは、因果進行をモデル化するための条件付け機構が欠如しているため、プロンプトによって定義された単一モーメントとして物理現象をレンダリングすることが多い。
本稿では,PPVGが因果的に連結され,動的に進化する事象の系列を生成するとみなす。
このパラダイムを実現するために,(1)物理駆動型イベント連鎖推論という2つの重要なモジュールを設計する。
このモジュールは、プロンプトに記述された物理現象を複数の基本的なイベント単位に分解し、連鎖の推論を利用する。
因果関係の曖昧さを軽減するために、推論中に決定論的因果関係を課す制約として物理式を組み込む。
2)transition-aware Cross-modal Prompting (TCP)。
イベント間の連続性を維持するため、このモジュールは因果イベントユニットを時間的に整列された視覚言語プロンプトに変換する。
個別のイベント記述を要約し、因果一貫性のある物語を得ると同時に、対話的な編集によって個々のイベントの視覚的キーフレームを徐々に合成する。
PhyGenBench と VideoPhy ベンチマークの総合的な実験により,本フレームワークは様々な物理領域にまたがる物理的に可視なビデオを生成する上で,優れた性能を発揮することが示された。
私たちのコードはまもなくリリースされるでしょう。
関連論文リスト
- PhyRPR: Training-Free Physics-Constrained Video Generation [12.488633253476111]
ビデオ生成のためのトレーニング不要な3段階パイプラインを提案する。
textitPhyulineReason--textitPhyulinePlan--textitPhyulineRefine
textitPhyReasonは、物理状態推論のための大規模なマルチモーダルモデルと、合成のためのイメージジェネレータを使用する。
textitPhyPlanは、制御可能な粗い動きの足場を決定的に合成する。
textit
論文 参考訳(メタデータ) (2026-01-14T07:41:56Z) - Temporal Concept Dynamics in Diffusion Models via Prompt-Conditioned Interventions [70.87254264798341]
PCIは、拡散時間を通して概念力学を解析するためのトレーニング不要でモデルに依存しないフレームワークである。
拡散モデルにまたがる様々な時間的挙動を明らかにしており、同じ概念タイプであっても、軌道の特定の位相は特定の概念に好適である。
論文 参考訳(メタデータ) (2025-12-09T11:05:08Z) - Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning [53.33388279933842]
本稿では,映像生成における物理的一貫性を実現するために,記号的推論と強化学習を統合することを提案する。
そこで我々は,Phys-ARフレームワークを提案する。第1段階は教師付き微調整を用いて記号的知識を伝達し,第2段階はモデルの推論能力の最適化に強化学習を適用する。
提案手法により,生成したビデオの物理的特性を動的に調整し,改善し,物理法則の遵守を確保することができる。
論文 参考訳(メタデータ) (2025-04-22T14:20:59Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。