論文の概要: Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion
- arxiv url: http://arxiv.org/abs/2603.03485v1
- Date: Tue, 03 Mar 2026 20:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.073559
- Title: Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion
- Title(参考訳): Phys4D:ビデオ拡散による微粒化物理連続4次元モデリング
- Authors: Haoran Lu, Shang Wu, Jianshu Zhang, Maojiang Su, Guo Ye, Chenwei Xu, Lie Lu, Pranav Maneriker, Fan Du, Manling Li, Zhaoran Wang, Han Liu,
- Abstract要約: ビデオ拡散モデルから物理に一貫性のある4次元世界表現を学習するためのパイプラインである textbfPhys4D を提案する。
まず、大規模擬似教師付き事前学習により、ロバストな幾何学と動きの表現を行う。
次に、シミュレーションブートストラップ生成データを用いて物理地上教師あり微調整を行い、時間的に一貫した4次元ダイナミクスを強制する。
- 参考スコア(独自算出の注目度): 43.09536633299663
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent video diffusion models have achieved impressive capabilities as large-scale generative world models. However, these models often struggle with fine-grained physical consistency, exhibiting physically implausible dynamics over time. In this work, we present \textbf{Phys4D}, a pipeline for learning physics-consistent 4D world representations from video diffusion models. Phys4D adopts \textbf{a three-stage training paradigm} that progressively lifts appearance-driven video diffusion models into physics-consistent 4D world representations. We first bootstrap robust geometry and motion representations through large-scale pseudo-supervised pretraining, establishing a foundation for 4D scene modeling. We then perform physics-grounded supervised fine-tuning using simulation-generated data, enforcing temporally consistent 4D dynamics. Finally, we apply simulation-grounded reinforcement learning to correct residual physical violations that are difficult to capture through explicit supervision. To evaluate fine-grained physical consistency beyond appearance-based metrics, we introduce a set of \textbf{4D world consistency evaluation} that probe geometric coherence, motion stability, and long-horizon physical plausibility. Experimental results demonstrate that Phys4D substantially improves fine-grained spatiotemporal and physical consistency compared to appearance-driven baselines, while maintaining strong generative performance. Our project page is available at https://sensational-brioche-7657e7.netlify.app/
- Abstract(参考訳): 最近のビデオ拡散モデルは、大規模な生成世界モデルとして印象的な機能を達成した。
しかし、これらのモデルはしばしば細かな物理的整合性に悩まされ、時間とともに物理的に不可解なダイナミクスを示す。
本研究では,映像拡散モデルから物理に一貫性のある4次元世界表現を学習するためのパイプラインであるtextbf{Phys4D}を提案する。
Phys4Dは、外見駆動型ビデオ拡散モデルを物理に一貫性のある4D世界表現に徐々に持ち上げる3段階の訓練パラダイムである。
まず、大規模擬似教師付き事前学習によるロバストな形状と動きの表現をブートストラップし、4次元シーンモデリングの基礎を確立した。
次に、シミュレーション生成データを用いて物理地上教師あり微調整を行い、時間的に一貫した4Dダイナミクスを強制する。
最後に, 暗黙的な監督によって捉えるのが難しい残差物理的違反を補正するために, シミュレーション地上強化学習を適用した。
外観に基づく測度を超える微細な物理的整合性を評価するために,幾何学的コヒーレンス,運動安定性,長期的物理的妥当性を探索する「textbf{4D世界整合性評価」のセットを導入する。
実験の結果,Phys4Dは外見駆動ベースラインに比べて微細な時空間および物理的整合性を著しく改善し,高い生成性能を維持した。
私たちのプロジェクトページはhttps://sensational-brioche-7657e7.netlify.app/で公開されている。
関連論文リスト
- Learning Physics-Grounded 4D Dynamics with Neural Gaussian Force Fields [11.212256115568772]
本稿では,3次元ガウス認識と物理に基づく動的モデリングを統合し,物理的にリアルな4Dビデオを生成するエンドツーエンドのニューラルネットワークフレームワークを提案する。
また、多種多様な材料、多目的インタラクション、複雑なシーンを特徴とする4DガウスデータセットであるGSCollisionを、合計640万以上の物理ビデオで紹介する。
論文 参考訳(メタデータ) (2026-01-29T11:37:41Z) - PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis [52.905353023326306]
物理的に妥当で多様な実演を合成し、効率的な世界モデルを学ぶためのフレームワークであるPhysWorldを提案する。
実験により、PhysWorldは、最新の最先端手法、すなわちPhysTwinよりも47倍高速な推論速度を実現しつつ、競争性能を持つことが示された。
論文 参考訳(メタデータ) (2025-10-24T13:25:39Z) - LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。
現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。
経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文 参考訳(メタデータ) (2025-10-13T15:19:07Z) - PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation [53.06495362038348]
既存の世代モデルは、テキストや画像から写真リアリスティックなビデオを作るのに優れているが、物理的な可視性と3D制御性に欠けることが多い。
本稿では物理パラメータと力制御を備えた物理地上画像生成のための新しいフレームワークであるPhysCtrlを紹介する。
実験によると、PhysCtrlは現実的な物理地上の運動軌跡を生成し、画像とビデオのモデルを駆動する際に高忠実で制御可能なビデオを生成する。
論文 参考訳(メタデータ) (2025-09-24T17:58:04Z) - PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis [37.21119648359889]
PhysGMはフィードフォワードフレームワークであり、単一の画像から3次元ガウス表現とその物理的特性を共同で予測する。
1分で1枚の画像から高忠実度4Dシミュレーションを効果的に生成する。
論文 参考訳(メタデータ) (2025-08-19T15:10:30Z) - PhysX-3D: Physical-Grounded 3D Asset Generation [48.78065667043986]
既存の3D生成は、物理グラウンドモデリングを無視しながら、ジオメトリーとテクスチャに重点を置いている。
PhysXNet - 5つの基本次元に体系的にアノテートされた最初の物理地上3Dデータセット。
また,物理基底画像から3次元のアセット生成のためのフィードフォワードフレームワークである textbfPhysXGen も提案する。
論文 参考訳(メタデータ) (2025-07-16T17:59:35Z) - Phys4DGen: Physics-Compliant 4D Generation with Multi-Material Composition Perception [9.355276457984603]
Phys4DGenは、多物質合成知覚と物理シミュレーションを統合する新しい4D生成フレームワークである。
このフレームワークは、3つの革新的なモジュールを通して、自動化され、物理的に妥当な4D生成を実現する。
合成と実世界の両方のデータセットの実験により、Phys4DGenは物理的リアリズムを持つ高忠実な4Dコンテンツを生成可能であることが示された。
論文 参考訳(メタデータ) (2024-11-25T12:12:38Z) - Physics3D: Learning Physical Properties of 3D Gaussians via Video Diffusion [35.71595369663293]
ビデオ拡散モデルを用いて3Dオブジェクトの様々な物理的特性を学習する新しい手法である textbfPhysics3D を提案する。
本手法では,粘弾性材料モデルに基づく高一般化物理シミュレーションシステムを設計する。
弾性材料とプラスチック材料の両方を用いて, 本手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-06-06T17:59:47Z) - DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。