論文の概要: PhyRPR: Training-Free Physics-Constrained Video Generation
- arxiv url: http://arxiv.org/abs/2601.09255v1
- Date: Wed, 14 Jan 2026 07:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.317578
- Title: PhyRPR: Training-Free Physics-Constrained Video Generation
- Title(参考訳): PhyRPR: トレーニング不要な物理制約付きビデオ生成
- Authors: Yibo Zhao, Hengjia Li, Xiaofei He, Boxi Wu,
- Abstract要約: ビデオ生成のためのトレーニング不要な3段階パイプラインを提案する。
textitPhyulineReason--textitPhyulinePlan--textitPhyulineRefine
textitPhyReasonは、物理状態推論のための大規模なマルチモーダルモデルと、合成のためのイメージジェネレータを使用する。
textitPhyPlanは、制御可能な粗い動きの足場を決定的に合成する。
textit
- 参考スコア(独自算出の注目度): 12.488633253476111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent diffusion-based video generation models can synthesize visually plausible videos, yet they often struggle to satisfy physical constraints. A key reason is that most existing approaches remain single-stage: they entangle high-level physical understanding with low-level visual synthesis, making it hard to generate content that require explicit physical reasoning. To address this limitation, we propose a training-free three-stage pipeline,\textit{PhyRPR}:\textit{Phy\uline{R}eason}--\textit{Phy\uline{P}lan}--\textit{Phy\uline{R}efine}, which decouples physical understanding from visual synthesis. Specifically, \textit{PhyReason} uses a large multimodal model for physical state reasoning and an image generator for keyframe synthesis; \textit{PhyPlan} deterministically synthesizes a controllable coarse motion scaffold; and \textit{PhyRefine} injects this scaffold into diffusion sampling via a latent fusion strategy to refine appearance while preserving the planned dynamics. This staged design enables explicit physical control during generation. Extensive experiments under physics constraints show that our method consistently improves physical plausibility and motion controllability.
- Abstract(参考訳): 最近の拡散型ビデオ生成モデルは、視覚的に可視なビデオを合成することができるが、しばしば物理的な制約を満たすのに苦労する。
主要な理由は、ほとんどの既存のアプローチがシングルステージのままであり、それらは低レベルな視覚合成と高レベルな物理的理解を絡み合わせるため、明示的な物理的推論を必要とするコンテンツを生成するのが困難である。
この制限に対処するために、トレーニング不要な3段階パイプラインである\textit{PhyRPR}:\textit{Phy\uline{R}eason}--\textit{Phy\uline{P}lan}--\textit{Phy\uline{R}efine}を提案する。
具体的には、物理状態推論のための大きなマルチモーダルモデルとキーフレーム合成のためのイメージジェネレータ、制御可能な粗い運動足場を決定論的に合成する \textit{PhyPlan} と、計画されたダイナミクスを保ちながら、潜在融合戦略を介して拡散サンプリングにこの足場を注入する \textit{PhyRefine} である。
このステージドデザインは、生成中の明示的な物理的制御を可能にする。
物理制約下での大規模な実験により,本手法は物理的可視性と運動制御性を常に改善することが示された。
関連論文リスト
- ProPhy: Progressive Physical Alignment for Dynamic World Simulation [55.456455952212416]
ProPhyは、明示的な物理認識条件付けと異方性生成を可能にするプログレッシブ物理アライメントフレームワークである。
ProPhyは既存の最先端手法よりもリアルでダイナミックで物理的に一貫性のある結果が得られることを示す。
論文 参考訳(メタデータ) (2025-12-05T09:39:26Z) - Enhancing Physical Plausibility in Video Generation by Reasoning the Implausibility [37.011366226968]
拡散モデルはリアルなビデオを生成することができるが、既存の方法は大規模テキストビデオデータセットから暗黙的に物理的推論を学ぶことに依存している。
本研究では,推論時の身体的可視性を改善するためのトレーニングフリーフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-29T12:32:54Z) - PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation [53.06495362038348]
既存の世代モデルは、テキストや画像から写真リアリスティックなビデオを作るのに優れているが、物理的な可視性と3D制御性に欠けることが多い。
本稿では物理パラメータと力制御を備えた物理地上画像生成のための新しいフレームワークであるPhysCtrlを紹介する。
実験によると、PhysCtrlは現実的な物理地上の運動軌跡を生成し、画像とビデオのモデルを駆動する際に高忠実で制御可能なビデオを生成する。
論文 参考訳(メタデータ) (2025-09-24T17:58:04Z) - Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning [53.33388279933842]
本稿では,映像生成における物理的一貫性を実現するために,記号的推論と強化学習を統合することを提案する。
そこで我々は,Phys-ARフレームワークを提案する。第1段階は教師付き微調整を用いて記号的知識を伝達し,第2段階はモデルの推論能力の最適化に強化学習を適用する。
提案手法により,生成したビデオの物理的特性を動的に調整し,改善し,物理法則の遵守を確保することができる。
論文 参考訳(メタデータ) (2025-04-22T14:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。