論文の概要: Synthetic Video Enhances Physical Fidelity in Video Synthesis
- arxiv url: http://arxiv.org/abs/2503.20822v1
- Date: Wed, 26 Mar 2025 00:45:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:51:12.834563
- Title: Synthetic Video Enhances Physical Fidelity in Video Synthesis
- Title(参考訳): ビデオ合成における物理忠実度を高める合成ビデオ
- Authors: Qi Zhao, Xingyu Ni, Ziyu Wang, Feng Cheng, Ziyan Yang, Lu Jiang, Bohan Wang,
- Abstract要約: コンピュータグラフィックスパイプラインから合成したビデオを利用して,映像生成モデルの物理忠実度を高める方法について検討する。
本稿では,合成データをキュレートして統合する手法を提案し,その物理リアリズムをモデルに転送する手法を提案する。
我々の研究は、合成ビデオがビデオ合成における物理的忠実性を高める最初の実証的なデモンストレーションの1つを提供する。
- 参考スコア(独自算出の注目度): 25.41774228022216
- License:
- Abstract: We investigate how to enhance the physical fidelity of video generation models by leveraging synthetic videos derived from computer graphics pipelines. These rendered videos respect real-world physics, such as maintaining 3D consistency, and serve as a valuable resource that can potentially improve video generation models. To harness this potential, we propose a solution that curates and integrates synthetic data while introducing a method to transfer its physical realism to the model, significantly reducing unwanted artifacts. Through experiments on three representative tasks emphasizing physical consistency, we demonstrate its efficacy in enhancing physical fidelity. While our model still lacks a deep understanding of physics, our work offers one of the first empirical demonstrations that synthetic video enhances physical fidelity in video synthesis. Website: https://kevinz8866.github.io/simulation/
- Abstract(参考訳): コンピュータグラフィックスパイプラインから合成したビデオを利用して,映像生成モデルの物理忠実度を高める方法について検討する。
これらのレンダリングされたビデオは、3D一貫性の維持など現実世界の物理を尊重し、ビデオ生成モデルを改善するための貴重なリソースとして機能する。
この可能性を活用するために,本研究では,その物理現実性をモデルに伝達する手法を導入しながら,合成データをキュレートして統合するソリューションを提案し,不要な人工物を大幅に削減する。
身体の整合性を強調する3つの代表的なタスクの実験を通じて、身体の忠実性を高める効果を実証した。
私たちのモデルは物理の深い理解に欠けていますが、私たちの研究は、合成ビデオがビデオ合成における物理的忠実性を高める最初の実証的なデモンストレーションの1つを提供しています。
ウェブサイト:https://kevinz8866.github.io/simulation/
関連論文リスト
- PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z) - Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video [58.043569985784806]
本稿では,物理シミュレーションのための伝達学習フレームワークである潜在直観物理学を紹介する。
単一の3Dビデオから流体の隠れた性質を推測し、新しいシーンで観察された流体をシミュレートすることができる。
我々は,本モデルの有効性を3つの方法で検証する: (i) 学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション, (ii) 観測された流体力学の将来予測, (iii) 教師付き粒子シミュレーション。
論文 参考訳(メタデータ) (2024-06-18T16:37:44Z) - Physics3D: Learning Physical Properties of 3D Gaussians via Video Diffusion [35.71595369663293]
ビデオ拡散モデルを用いて3Dオブジェクトの様々な物理的特性を学習する新しい手法である textbfPhysics3D を提案する。
本手法では,粘弾性材料モデルに基づく高一般化物理シミュレーションシステムを設計する。
弾性材料とプラスチック材料の両方を用いて, 本手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-06-06T17:59:47Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation [62.53760963292465]
PhysDreamerは物理に基づくアプローチで、静的な3Dオブジェクトにインタラクティブなダイナミクスを与える。
本稿では, 弾性物体の多様な例について考察し, ユーザスタディを通じて合成された相互作用の現実性を評価する。
論文 参考訳(メタデータ) (2024-04-19T17:41:05Z) - Sora Generates Videos with Stunning Geometrical Consistency [75.46675626542837]
そこで本研究では,実世界の物理原理に則って生成した映像の質を評価する新しいベンチマークを提案する。
生成した映像を3次元モデルに変換する手法を用いて,3次元再構成の精度が映像品質に大きく影響しているという前提を生かした。
論文 参考訳(メタデータ) (2024-02-27T10:49:05Z) - Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos [78.49864987061689]
従来の衝撃音合成法では、音を表現・合成できる物理パラメータのセットを得るために物理シミュレーションを用いていた。
既存のビデオ駆動ディープラーニングベースのアプローチは、視覚コンテンツと衝撃音の間の弱い対応を捉えることしかできなかった。
サイレントビデオクリップに高忠実度衝撃音を合成できる物理駆動拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:59:53Z) - Differentiable Dynamics for Articulated 3d Human Motion Reconstruction [29.683633237503116]
DiffPhyは、映像から3次元の人間の動きを再現する物理モデルである。
モノクロ映像から物理的に可視な3次元動作を正確に再現できることを実証し,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2022-05-24T17:58:37Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - Physics-based Human Motion Estimation and Synthesis from Videos [0.0]
単眼のRGBビデオから直接、身体的に可視な人間の動きの生成モデルを訓練するための枠組みを提案する。
提案手法のコアとなるのは,不完全な画像に基づくポーズ推定を補正する新しい最適化式である。
その結果,我々の身体的補正動作は,ポーズ推定における先行作業よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。