論文の概要: Cinemo: Consistent and Controllable Image Animation with Motion Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.15642v1
- Date: Mon, 22 Jul 2024 14:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 14:51:29.712582
- Title: Cinemo: Consistent and Controllable Image Animation with Motion Diffusion Models
- Title(参考訳): Cinemo: 動き拡散モデルによる一貫性と制御可能な画像アニメーション
- Authors: Xin Ma, Yaohui Wang, Gengyu Jia, Xinyuan Chen, Yuan-Fang Li, Cunjian Chen, Yu Qiao,
- Abstract要約: 我々は、より優れたモーション制御性を実現するための、新しいイメージアニメーションアプローチであるCinemoを紹介する。
我々は,Cinemoのトレーニングと推論段階における3つの効果的な戦略を提案し,その目標を達成する。
- 参考スコア(独自算出の注目度): 40.54672662192772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved great progress in image animation due to powerful generative capabilities. However, maintaining spatio-temporal consistency with detailed information from the input static image over time (e.g., style, background, and object of the input static image) and ensuring smoothness in animated video narratives guided by textual prompts still remains challenging. In this paper, we introduce Cinemo, a novel image animation approach towards achieving better motion controllability, as well as stronger temporal consistency and smoothness. In general, we propose three effective strategies at the training and inference stages of Cinemo to accomplish our goal. At the training stage, Cinemo focuses on learning the distribution of motion residuals, rather than directly predicting subsequent via a motion diffusion model. Additionally, a structural similarity index-based strategy is proposed to enable Cinemo to have better controllability of motion intensity. At the inference stage, a noise refinement technique based on discrete cosine transformation is introduced to mitigate sudden motion changes. Such three strategies enable Cinemo to produce highly consistent, smooth, and motion-controllable results. Compared to previous methods, Cinemo offers simpler and more precise user controllability. Extensive experiments against several state-of-the-art methods, including both commercial tools and research approaches, across multiple metrics, demonstrate the effectiveness and superiority of our proposed approach.
- Abstract(参考訳): 拡散モデルは、強力な生成能力により画像アニメーションにおいて大きな進歩を遂げている。
しかし、入力された静的画像からの詳細な情報(例えば、スタイル、背景、および入力された静的画像のオブジェクト)との時空間的整合性を維持し、テキストプロンプトで案内されたアニメーション映像の滑らかさを確保することは依然として困難である。
本稿では、より優れた動き制御性を実現するための新しい画像アニメーションであるCinemoを紹介し、時間的一貫性と滑らかさを向上する。
一般に,Cinemoの学習・推論段階における3つの効果的な戦略を提案する。
トレーニング段階では、Cinemoは、運動拡散モデルを介して後続を直接予測するのではなく、運動残差の分布の学習に重点を置いている。
さらに、Cinemoの運動強度の制御性を改善するために、構造的類似度指数に基づく戦略が提案されている。
推定段階では、離散コサイン変換に基づくノイズ改善手法を導入し、突発的な動きの変化を緩和する。
このような3つの戦略により、シネモは高度に一貫性があり、滑らかで、運動制御可能な結果が得られる。
従来の方法と比較して、Cinemoはよりシンプルで正確なユーザコントロール機能を提供する。
提案手法の有効性と優位性を実証するために, 市販のツールや研究手法を含むいくつかの最先端手法に対する大規模な実験を行った。
関連論文リスト
- Image Motion Blur Removal in the Temporal Dimension with Video Diffusion Models [3.052019331122618]
本研究では,動きのぼかしを時間的平均化現象として扱う新しい単一像デブロアリング手法を提案する。
私たちの中心となるイノベーションは、トレーニング済みの動画拡散トランスフォーマーモデルを利用して、多様な動きのダイナミクスを捉えることです。
合成および実世界のデータセットにおける実験結果から,本手法は複雑な動きのぼかしシナリオを損なう場合,既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-01-22T03:01:54Z) - Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss [35.69606926024434]
本稿では,初期雑音に基づくアプローチと新たな動きの整合性損失を組み合わせた,シンプルで効果的な解を提案する。
次に、生成したビデオに類似した特徴相関パターンを維持するために、動きの整合性損失を設計する。
このアプローチは、トレーニング不要のセットアップの利点を保ちながら、さまざまなモーションコントロールタスク間の時間的一貫性を改善する。
論文 参考訳(メタデータ) (2025-01-13T18:53:08Z) - A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions [56.709280823844374]
動作コンテキストとビデオマスクを利用して、欠陥のある動作を修復するマスクベースの動作補正モジュール(MCM)を導入する。
また,運動模倣のための事前訓練および適応手法を用いた物理ベースの運動伝達モジュール (PTM) を提案する。
本手法は,高速な移動を含む映像モーションキャプチャ結果を物理的に洗練するためのプラグイン・アンド・プレイモジュールとして設計されている。
論文 参考訳(メタデータ) (2024-12-23T08:26:00Z) - FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait [3.3672851080270374]
FLOATは,フローマッチング生成モデルに基づく音声駆動型音声画像生成手法である。
生成的モデリングを画素ベースの潜在空間から学習された潜在空間にシフトし、時間的に一貫した運動の効率的な設計を可能にする。
本手法は音声による感情強調をサポートし,表現運動の自然な取り込みを可能にする。
論文 参考訳(メタデータ) (2024-12-02T02:50:07Z) - COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation [98.05046790227561]
COINは、人間の動きとカメラの動きを細粒度に制御できる、コントロール・インパインティング・モーション拡散である。
COINは、グローバルな人間の動き推定とカメラの動き推定という観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-08-29T10:36:29Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。