論文の概要: Motion Dreamer: Realizing Physically Coherent Video Generation through Scene-Aware Motion Reasoning
- arxiv url: http://arxiv.org/abs/2412.00547v1
- Date: Sat, 30 Nov 2024 17:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:50:03.950032
- Title: Motion Dreamer: Realizing Physically Coherent Video Generation through Scene-Aware Motion Reasoning
- Title(参考訳): モーションドリーマー:シーン認識による物理コヒーレントな映像生成を実現する
- Authors: Tianshuo Xu, Zhifei Chen, Leyi Wu, Hao Lu, Yuying Chen, Lihui Jiang, Bingbing Liu, Yingcong Chen,
- Abstract要約: 本稿では,2段階のビデオ生成フレームワークであるbfMotion Dreamerを提案する。
高忠実度ビデオ合成から動き推論を分離することにより、より正確で物理的に妥当な動き生成を可能にする。
我々の研究は、より一貫性があり現実的な方法で物理的相互作用を推論できるモデルを作成するための新しい道を開く。
- 参考スコア(独自算出の注目度): 27.690736225683825
- License:
- Abstract: Recent numerous video generation models, also known as world models, have demonstrated the ability to generate plausible real-world videos. However, many studies have shown that these models often produce motion results lacking logical or physical coherence. In this paper, we revisit video generation models and find that single-stage approaches struggle to produce high-quality results while maintaining coherent motion reasoning. To address this issue, we propose \textbf{Motion Dreamer}, a two-stage video generation framework. In Stage I, the model generates an intermediate motion representation-such as a segmentation map or depth map-based on the input image and motion conditions, focusing solely on the motion itself. In Stage II, the model uses this intermediate motion representation as a condition to generate a high-detail video. By decoupling motion reasoning from high-fidelity video synthesis, our approach allows for more accurate and physically plausible motion generation. We validate the effectiveness of our approach on the Physion dataset and in autonomous driving scenarios. For example, given a single push, our model can synthesize the sequential toppling of a set of dominoes. Similarly, by varying the movements of ego-cars, our model can produce different effects on other vehicles. Our work opens new avenues in creating models that can reason about physical interactions in a more coherent and realistic manner.
- Abstract(参考訳): 近年の多数のビデオ生成モデル(ワールドモデルとしても知られる)は、実証可能な実世界のビデオを生成する能力を実証している。
しかし、多くの研究は、これらのモデルが論理的あるいは物理的コヒーレンスに欠ける運動結果を生み出すことをしばしば示している。
本稿では,映像生成モデルを再検討し,コヒーレントな動作推論を維持しながら,単一ステージアプローチが高品質な結果の獲得に苦慮していることを示す。
この問題に対処するために,2段階のビデオ生成フレームワークである‘textbf{Motion Dreamer} を提案する。
ステージIでは、入力画像と運動条件に基づいて、セグメンテーションマップや深度マップなどの中間動作表現を生成する。
ステージIIでは、この中間動作表現を条件として高精細ビデオを生成する。
高忠実度ビデオ合成から動き推論を分離することにより、より正確で物理的に妥当な動き生成を可能にする。
提案手法の有効性をPhyssionデータセットおよび自律運転シナリオで検証する。
例えば、1つのプッシュが与えられた場合、我々のモデルは一連のドミノの逐次的トッピングを合成することができる。
同様に、エゴカーの動きを変えることで、我々のモデルは他の車に異なる効果をもたらすことができる。
我々の研究は、より一貫性があり現実的な方法で物理的相互作用を推論できるモデルを作成するための新しい道を開く。
関連論文リスト
- Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。