論文の概要: Motion-Conditioned Diffusion Model for Controllable Video Synthesis
- arxiv url: http://arxiv.org/abs/2304.14404v1
- Date: Thu, 27 Apr 2023 17:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 11:55:35.253529
- Title: Motion-Conditioned Diffusion Model for Controllable Video Synthesis
- Title(参考訳): 制御可能なビデオ合成のためのモーションコンディション拡散モデル
- Authors: Tsai-Shien Chen, Chieh Hubert Lin, Hung-Yu Tseng, Tsung-Yi Lin,
Ming-Hsuan Yang
- Abstract要約: 本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。
MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
- 参考スコア(独自算出の注目度): 75.367816656045
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in diffusion models have greatly improved the quality and
diversity of synthesized content. To harness the expressive power of diffusion
models, researchers have explored various controllable mechanisms that allow
users to intuitively guide the content synthesis process. Although the latest
efforts have primarily focused on video synthesis, there has been a lack of
effective methods for controlling and describing desired content and motion. In
response to this gap, we introduce MCDiff, a conditional diffusion model that
generates a video from a starting image frame and a set of strokes, which allow
users to specify the intended content and dynamics for synthesis. To tackle the
ambiguity of sparse motion inputs and achieve better synthesis quality, MCDiff
first utilizes a flow completion model to predict the dense video motion based
on the semantic understanding of the video frame and the sparse motion control.
Then, the diffusion model synthesizes high-quality future frames to form the
output video. We qualitatively and quantitatively show that MCDiff achieves the
state-the-of-art visual quality in stroke-guided controllable video synthesis.
Additional experiments on MPII Human Pose further exhibit the capability of our
model on diverse content and motion synthesis.
- Abstract(参考訳): 拡散モデルの最近の進歩は、合成コンテンツの質と多様性を大幅に改善した。
拡散モデルの表現力を利用するため、研究者はユーザーが直感的にコンテンツ合成プロセスを導くことができる様々な制御可能なメカニズムを探求した。
最新の取り組みは主にビデオ合成に焦点を当てているが、望ましいコンテンツや動きを制御し記述するための効果的な方法が欠如している。
このギャップに対応するために,本稿では,開始画像フレームとストロークのセットから映像を生成する条件拡散モデルであるmcdiffを紹介する。
スパース動作入力のあいまいさに対処し、より良い合成品質を達成するため、MCDiffはまずフロー補完モデルを用いて、映像フレームとスパース動作制御のセマンティック理解に基づいて、濃密な映像動作を予測する。
そして、拡散モデルは高品質な将来のフレームを合成して出力ビデオを形成する。
我々は,ストローク誘導制御可能なビデオ合成において,MCDiffが最先端の視覚的品質を実現することを質的に定量的に示す。
MPII Human Poseに関する追加実験は、多種多様な内容と運動合成における我々のモデルの有効性をさらに示す。
関連論文リスト
- Towards motion from video diffusion models [10.493424298717864]
本稿では,ビデオ拡散モデルを用いて計算したスコア蒸留サンプリング(SDS)によって導かれるSMPL-Xボディ表現を変形させることにより,人間の動作を合成することを提案する。
得られたアニメーションの忠実度を解析することにより、公開されているテキスト・ビデオ拡散モデルを用いて、動作の程度を把握できる。
論文 参考訳(メタデータ) (2024-11-19T19:35:28Z) - Video Diffusion Models are Training-free Motion Interpreter and Controller [20.361790608772157]
本稿では,映像拡散モデルにおける動き認識機能を理解し,ローカライズし,操作するための新しい視点を提案する。
コンテンツ相関情報とフィルタリング動作チャネルを除去し,MOFT(Motion FeaTure)を提案する。
論文 参考訳(メタデータ) (2024-05-23T17:59:40Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - VideoLCM: Video Latent Consistency Model [52.3311704118393]
VideoLCMは、既存の遅延ビデオ拡散モデルの上に構築され、遅延一貫性モデルをトレーニングするための一貫性蒸留技術が組み込まれている。
ビデオLCMは4ステップのみのサンプリングで高忠実でスムーズなビデオ合成を実現し,リアルタイム合成の可能性を示す。
論文 参考訳(メタデータ) (2023-12-14T16:45:36Z) - Controllable Motion Synthesis and Reconstruction with Autoregressive
Diffusion Models [18.50942770933098]
MoDiff(モディフ)は、他のモードの制御コンテキストに条件付けられた動き列上の自己回帰的確率拡散モデルである。
本モデルでは、モーダルトランスフォーマーエンコーダとトランスフォーマーベースのデコーダを統合し、動作の時間的相関と制御のモダリティを捉えるのに有効である。
論文 参考訳(メタデータ) (2023-04-03T08:17:08Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。