論文の概要: Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics
- arxiv url: http://arxiv.org/abs/2604.08503v1
- Date: Thu, 09 Apr 2026 17:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.055112
- Title: Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics
- Title(参考訳): Phantom: 視覚と潜伏する物理力学のジョイントモデリングによる物理融合ビデオ生成
- Authors: Ying Shen, Jerry Xiong, Tianjiao Yu, Ismini Lourentzou,
- Abstract要約: 本稿では,視覚的内容と潜伏する物理力学を共同でモデル化する物理拡散ビデオ生成モデルを提案する。
観測されたビデオフレームと推論された物理状態に基づいて、Phantomは遅延物理的ダイナミクスを共同で予測し、将来のビデオフレームを生成する。
物理認識ビデオ表現の推論を直接ビデオ生成プロセスに統合することにより、Phantomは視覚的にリアルかつ物理的に一貫性のあるビデオシーケンスを生成する。
- 参考スコア(独自算出の注目度): 12.143531149918674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generative video modeling, driven by large-scale datasets and powerful architectures, have yielded remarkable visual realism. However, emerging evidence suggests that simply scaling data and model size does not endow these systems with an understanding of the underlying physical laws that govern real-world dynamics. Existing approaches often fail to capture or enforce such physical consistency, resulting in unrealistic motion and dynamics. In his work, we investigate whether integrating the inference of latent physical properties directly into the video generation process can equip models with the ability to produce physically plausible videos. To this end, we propose Phantom, a Physics-Infused Video Generation model that jointly models the visual content and latent physical dynamics. Conditioned on observed video frames and inferred physical states, Phantom jointly predicts latent physical dynamics and generates future video frames. Phantom leverages a physics-aware video representation that serves as an abstract yet informaive embedding of the underlying physics, facilitating the joint prediction of physical dynamics alongside video content without requiring an explicit specification of a complex set of physical dynamics and properties. By integrating the inference of physical-aware video representation directly into the video generation process, Phantom produces video sequences that are both visually realistic and physically consistent. Quantitative and qualitative results on both standard video generation and physics-aware benchmarks demonstrate that Phantom not only outperforms existing methods in terms of adherence to physical dynamics but also delivers competitive perceptual fidelity.
- Abstract(参考訳): 大規模データセットと強力なアーキテクチャによって駆動される生成ビデオモデリングの最近の進歩は、目覚ましい視覚的リアリズムを生み出している。
しかし、新たな証拠は、単にデータとモデルサイズをスケールするだけでは、現実世界のダイナミクスを管理する物理法則を理解できないことを示唆している。
既存のアプローチは、しばしばそのような物理的一貫性を捕捉または強制することに失敗し、非現実的な動きとダイナミクスをもたらす。
本研究では,映像生成プロセスに直接潜伏する物理特性の推測を組み込むことで,物理的に可視な映像を生成できるモデルが得られるかどうかを考察する。
この目的のために,視覚的内容と潜伏する物理力学を共同でモデル化する物理拡散ビデオ生成モデルPhantomを提案する。
観測されたビデオフレームと推論された物理状態に基づいて、Phantomは遅延物理的ダイナミクスを共同で予測し、将来のビデオフレームを生成する。
Phantomは物理を意識したビデオ表現を活用し、基礎となる物理の抽象的かつ情報的な埋め込みとして機能し、複雑な物理力学と性質の明示的な仕様を必要とせず、ビデオコンテンツと並んで物理力学の同時予測を容易にする。
物理認識ビデオ表現の推論を直接ビデオ生成プロセスに統合することにより、Phantomは視覚的にリアルかつ物理的に一貫性のあるビデオシーケンスを生成する。
標準的なビデオ生成と物理認識のベンチマークの定量的および定性的な結果から、Phantomは物理力学への固執という点で既存の手法よりも優れているだけでなく、競争力のある知覚的忠実性をもたらすことが示されている。
関連論文リスト
- PhysAlign: Physics-Coherent Image-to-Video Generation through Feature and 3D Representation Alignment [23.066204478030627]
ビデオモデル(VDM)は、動的なシーンや環境をシミュレートするための有望なアプローチを提供する。
既存のモデルは、しばしば基本的な物理的直観に反する時間的に一貫性のないコンテンツを生成する。
物理コヒーレントな画像対ビデオI(2V)生成のための効率的なフレームワークであるPhysAlignを提案する。
論文 参考訳(メタデータ) (2026-03-14T05:44:18Z) - ProPhy: Progressive Physical Alignment for Dynamic World Simulation [55.456455952212416]
ProPhyは、明示的な物理認識条件付けと異方性生成を可能にするプログレッシブ物理アライメントフレームワークである。
ProPhyは既存の最先端手法よりもリアルでダイナミックで物理的に一貫性のある結果が得られることを示す。
論文 参考訳(メタデータ) (2025-12-05T09:39:26Z) - PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding [50.454084539837005]
PhysChoreoは、単一の画像から多様な制御性と物理的なリアリズムを持つビデオを生成する新しいフレームワークである。
本手法は2つの段階から構成される: まず, 画像中の全ての物体の静的初期特性を, 部分認識の物理的特性再構成により推定する。
そして、時間的に指示され、物理的に編集可能なシミュレーションを通じて、リッチな動的な振る舞いと物理的なリアリズムで高品質な動画を合成する。
論文 参考訳(メタデータ) (2025-11-25T17:59:04Z) - PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning [49.88366485306749]
現代のビデオ生成モデルは、視覚的にリアルなビデオを生成することができるが、物理法則に従わないことが多い。
本稿では,物理認識力を高めるため,映像生成モデルを導くための表現として,物理知識を捉えたPhysMasterを提案する。
論文 参考訳(メタデータ) (2025-10-15T17:59:59Z) - PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation [53.06495362038348]
既存の世代モデルは、テキストや画像から写真リアリスティックなビデオを作るのに優れているが、物理的な可視性と3D制御性に欠けることが多い。
本稿では物理パラメータと力制御を備えた物理地上画像生成のための新しいフレームワークであるPhysCtrlを紹介する。
実験によると、PhysCtrlは現実的な物理地上の運動軌跡を生成し、画像とビデオのモデルを駆動する際に高忠実で制御可能なビデオを生成する。
論文 参考訳(メタデータ) (2025-09-24T17:58:04Z) - Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。