論文の概要: 3DPhysVideo: Consistency-Guided Flow SDE for Video Generation via 3D Scene Reconstruction and Physical Simulation
- arxiv url: http://arxiv.org/abs/2605.16795v1
- Date: Sat, 16 May 2026 03:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.025041
- Title: 3DPhysVideo: Consistency-Guided Flow SDE for Video Generation via 3D Scene Reconstruction and Physical Simulation
- Title(参考訳): 3DPhys Video: Consistency-Guided Flow SDE for Video Generation via 3D Scene Reconstruction and Physical Simulation
- Authors: Hwidong Kim, Yunho Kim, Tae-Kyun Kim,
- Abstract要約: この3DPhysVideoは、単一の画像から物理的にリアルなビデオを生成する、新しいトレーニング不要のパイプラインだ。
画像から映像へのフローモデル(I2V)を描画点雲で導いて360度3次元シーン形状を復元するために,新しいビューシンセサイザーとして利用する。
マルチオブジェクトや流体相互作用シーンを含む多種多様な実験において,本手法は単一画像から物理的に可視なビデオへのギャップを埋めることに成功した。
- 参考スコア(独自算出の注目度): 13.662206166615098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generative models have made remarkable progress, yet they often yield visual artifacts that violate grounding in physical dynamics. Recent works such as PhysGen3D tackle single image-to-3D physics through mesh reconstruction and Physically-Based Rendering, but challenges remain in modeling fluid dynamics, multi-object interactions and photorealism. This work introduces 3DPhysVideo, a novel training-free pipeline that generates physically realistic videos from a single image. We repurpose an off-the-shelf video model for two stages. First, we use it as a novel view synthesizer to reconstruct complete 360-degree 3D scene geometry by guiding the image-to-video (I2V) flow model with rendered point clouds. Second, after applying physics solvers to this geometry, the physically simulated point cloud is used to guide the same I2V flow model to synthesize final, high-quality videos. Consistency-Guided Flow SDE, which decomposes the predicted velocity of the I2V flow model into denoising and consistency bias, enforces consistency to the conditional inputs, allowing us to effectively repurpose the model for both 3D reconstruction and simulation-guided video generation. In the diverse experiments including multi-objects, and fluid interaction scenes, our method successfully bridges the gap from single-images to physically plausible videos, while remaining efficient to run on a single consumer GPU. It outperforms state-of-the-art baselines on GPT-based scores, VideoPhy benchmark and human evaluation.
- Abstract(参考訳): ビデオ生成モデルは目覚ましい進歩を遂げているが、物理力学の基盤に反する視覚的な成果物をしばしば生み出す。
PhysGen3Dのような最近の研究は、メッシュ再構成や物理ベースのレンダリングを通じて、単一画像から3Dの物理に取り組むが、流体力学、多目的相互作用、フォトリアリズムのモデリングには課題が残る。
この3DPhysVideoは、単一の画像から物理的にリアルなビデオを生成する、新しいトレーニング不要のパイプラインだ。
市販のビデオモデルを2段階で再利用する。
まず,画像から映像へのフローモデル(I2V)を描画点雲で導くことで,360度3次元シーン形状を復元する新しいビューシンセサイザーとして利用する。
第二に、物理解法をこの幾何学に応用した後、物理シミュレーションされた点雲を用いて、同じI2Vフローモデルを用いて、最終的な高品質なビデオを合成する。
I2Vフローモデルの予測速度をデノナイズと一貫性バイアスに分解するConsistency-Guided Flow SDEは条件入力の一貫性を強制し、3次元再構成とシミュレーション誘導のビデオ生成の両方に効果的にモデルを再利用する。
マルチオブジェクトや流体相互作用シーンを含む多種多様な実験において,本手法は単一イメージから物理的に可視なビデオへのギャップを埋めることに成功した。
GPTベースのスコア、VideoPhyベンチマーク、人間による評価では、最先端のベースラインを上回っている。
関連論文リスト
- PhysAlign: Physics-Coherent Image-to-Video Generation through Feature and 3D Representation Alignment [23.066204478030627]
ビデオモデル(VDM)は、動的なシーンや環境をシミュレートするための有望なアプローチを提供する。
既存のモデルは、しばしば基本的な物理的直観に反する時間的に一貫性のないコンテンツを生成する。
物理コヒーレントな画像対ビデオI(2V)生成のための効率的なフレームワークであるPhysAlignを提案する。
論文 参考訳(メタデータ) (2026-03-14T05:44:18Z) - Physical Simulator In-the-Loop Video Generation [96.87054314612142]
Physical Simulator In-the-loop Video Generation (PSIVG)は、物理シミュレータをビデオ拡散プロセスに統合する新しいフレームワークである。
PSIVGは、視覚的品質と多様性を保ちながら、現実世界の物理に忠実なビデオを制作する。
論文 参考訳(メタデータ) (2026-03-06T15:48:25Z) - RealWonder: Real-Time Physical Action-Conditioned Video Generation [31.747349682347167]
本稿では,1枚の画像からアクション条件付き映像をリアルタイムに生成するシステムであるRealWonderについて述べる。
RealWonderは、単一画像からの3D再構成、物理シミュレーション、および4つの拡散ステップしか必要としない蒸留ビデオ生成装置を統合している。
本システムは480x832解像度で13.2FPSを実現し,剛体物体の力,ロボット動作,カメラ制御の対話的探索を可能にする。
論文 参考訳(メタデータ) (2026-03-05T18:22:54Z) - ViSA: 3D-Aware Video Shading for Real-Time Upper-Body Avatar Creation [62.86900540547787]
現在の3Dアバター生成法は、ぼやけたテクスチャや固い不自然な動きといったアーティファクトに悩まされることが多い。
両パラダイムの強みを組み合わせた新しいアプローチを提案する。
ビデオモデルの生成能力と3次元再構成の幾何学的安定性を結合することにより,高忠実度デジタルアバターを製作する。
論文 参考訳(メタデータ) (2025-12-08T17:10:29Z) - Restage4D: Reanimating Deformable 3D Reconstruction from a Single Video [56.781766315691854]
ビデオ条件付き4D再生のための幾何学保存パイプラインである textbfRestage4D を紹介する。
DAVIS と PointOdyssey 上のRestage4D の有効性を検証し,幾何整合性,運動品質,3次元追跡性能の向上を実証した。
論文 参考訳(メタデータ) (2025-08-08T21:31:51Z) - PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z) - DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。