論文の概要: PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation
- arxiv url: http://arxiv.org/abs/2409.18964v1
- Date: Fri, 27 Sep 2024 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-01 07:41:44.831923
- Title: PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation
- Title(参考訳): PhysGen: 物理を取り巻くrigid-Bodyのイメージ・ツー・ビデオ生成
- Authors: Shaowei Liu, Zhongzheng Ren, Saurabh Gupta, Shenlong Wang,
- Abstract要約: 本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
- 参考スコア(独自算出の注目度): 29.831214435147583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present PhysGen, a novel image-to-video generation method that converts a single image and an input condition (e.g., force and torque applied to an object in the image) to produce a realistic, physically plausible, and temporally consistent video. Our key insight is to integrate model-based physical simulation with a data-driven video generation process, enabling plausible image-space dynamics. At the heart of our system are three core components: (i) an image understanding module that effectively captures the geometry, materials, and physical parameters of the image; (ii) an image-space dynamics simulation model that utilizes rigid-body physics and inferred parameters to simulate realistic behaviors; and (iii) an image-based rendering and refinement module that leverages generative video diffusion to produce realistic video footage featuring the simulated motion. The resulting videos are realistic in both physics and appearance and are even precisely controllable, showcasing superior results over existing data-driven image-to-video generation works through quantitative comparison and comprehensive user study. PhysGen's resulting videos can be used for various downstream applications, such as turning an image into a realistic animation or allowing users to interact with the image and create various dynamics. Project page: https://stevenlsw.github.io/physgen/
- Abstract(参考訳): 本稿では、画像と入力条件(例えば、画像内の物体に印加される力とトルク)を変換して、現実的で、物理的に可視で、時間的に一貫した映像を生成する、新しい画像対ビデオ生成法であるPhysGenを提案する。
我々の重要な洞察は、モデルに基づく物理シミュレーションをデータ駆動型ビデオ生成プロセスに統合し、画像空間の高機能化を可能にすることである。
私たちのシステムの中心には3つのコアコンポーネントがあります。
一 画像の形状、材料及び物理パラメータを効果的に把握する画像理解モジュール
(II)剛体物理と推定パラメータを用いて現実的な挙動をシミュレートする画像空間力学シミュレーションモデル
三 映像に基づくレンダリング・リファインメントモジュールで、映像拡散を利用して、シミュレーションされた動きを特徴とするリアルな映像を生成する。
結果として得られるビデオは物理と外観の両方で現実的であり、さらに正確に制御可能であり、定量的比較と総合的なユーザースタディを通じて、既存のデータ駆動型画像-ビデオ生成よりも優れた結果を示す。
PhysGenの生成されたビデオは、イメージをリアルなアニメーションにしたり、ユーザーがイメージと対話したり、様々なダイナミクスを作成できるなど、さまざまなダウンストリームアプリケーションに使用することができる。
プロジェクトページ: https://stevenlsw.github.io/physgen/
関連論文リスト
- PhysMotion: Physics-Grounded Dynamics From a Single Image [24.096925413047217]
物理シミュレーションの原理を取り入れた新しいフレームワークであるPhysMotionを導入し,1つの画像から生成された中間3次元表現をガイドする。
我々のアプローチは、従来のデータ駆動生成モデルの限界に対処し、より一貫した物理的に妥当な動きをもたらす。
論文 参考訳(メタデータ) (2024-11-26T07:59:11Z) - Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video [58.043569985784806]
本稿では,物理シミュレーションのための伝達学習フレームワークである潜在直観物理学を紹介する。
単一の3Dビデオから流体の隠れた性質を推測し、新しいシーンで観察された流体をシミュレートすることができる。
我々は,本モデルの有効性を3つの方法で検証する: (i) 学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション, (ii) 観測された流体力学の将来予測, (iii) 教師付き粒子シミュレーション。
論文 参考訳(メタデータ) (2024-06-18T16:37:44Z) - Physics3D: Learning Physical Properties of 3D Gaussians via Video Diffusion [35.71595369663293]
ビデオ拡散モデルを用いて3Dオブジェクトの様々な物理的特性を学習する新しい手法である textbfPhysics3D を提案する。
本手法では,粘弾性材料モデルに基づく高一般化物理シミュレーションシステムを設計する。
弾性材料とプラスチック材料の両方を用いて, 本手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-06-06T17:59:47Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - DreamPhysics: Learning Physical Properties of Dynamic 3D Gaussians with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z) - MotionCraft: Physics-based Zero-Shot Video Generation [22.33113030344355]
MotionCraftは物理ベースのリアルなビデオを作るためのゼロショットビデオジェネレータだ。
安定拡散のような画像拡散モデルのノイズ潜時空間を光学的流れを適用することにより、MotionCraftがワープできることが示される。
我々は,この手法を最先端のText2Video-Zeroレポートと比較し,質的,定量的に改善した。
論文 参考訳(メタデータ) (2024-05-22T11:44:57Z) - PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation [62.53760963292465]
PhysDreamerは物理に基づくアプローチで、静的な3Dオブジェクトにインタラクティブなダイナミクスを与える。
本稿では, 弾性物体の多様な例について考察し, ユーザスタディを通じて合成された相互作用の現実性を評価する。
論文 参考訳(メタデータ) (2024-04-19T17:41:05Z) - NeuPhysics: Editable Neural Geometry and Physics from Monocular Videos [82.74918564737591]
本稿では,モノクラーRGBビデオ入力のみから動的シーンの3次元形状と物理パラメータを学習する手法を提案する。
実験により,提案手法は,競合するニューラルフィールドアプローチと比較して,動的シーンのメッシュとビデオの再構成に優れることを示した。
論文 参考訳(メタデータ) (2022-10-22T04:57:55Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。