論文の概要: Cinemo: Consistent and Controllable Image Animation with Motion Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.15642v2
- Date: Tue, 23 Jul 2024 01:35:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 11:59:35.496972
- Title: Cinemo: Consistent and Controllable Image Animation with Motion Diffusion Models
- Title(参考訳): Cinemo: 動き拡散モデルによる一貫性と制御可能な画像アニメーション
- Authors: Xin Ma, Yaohui Wang, Gengyun Jia, Xinyuan Chen, Yuan-Fang Li, Cunjian Chen, Yu Qiao,
- Abstract要約: 我々は、より優れたモーション制御性を実現するための、新しいイメージアニメーションアプローチであるCinemoを紹介する。
我々は,Cinemoのトレーニングと推論段階における3つの効果的な戦略を提案し,その目標を達成する。
- 参考スコア(独自算出の注目度): 41.331998102524274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved great progress in image animation due to powerful generative capabilities. However, maintaining spatio-temporal consistency with detailed information from the input static image over time (e.g., style, background, and object of the input static image) and ensuring smoothness in animated video narratives guided by textual prompts still remains challenging. In this paper, we introduce Cinemo, a novel image animation approach towards achieving better motion controllability, as well as stronger temporal consistency and smoothness. In general, we propose three effective strategies at the training and inference stages of Cinemo to accomplish our goal. At the training stage, Cinemo focuses on learning the distribution of motion residuals, rather than directly predicting subsequent via a motion diffusion model. Additionally, a structural similarity index-based strategy is proposed to enable Cinemo to have better controllability of motion intensity. At the inference stage, a noise refinement technique based on discrete cosine transformation is introduced to mitigate sudden motion changes. Such three strategies enable Cinemo to produce highly consistent, smooth, and motion-controllable results. Compared to previous methods, Cinemo offers simpler and more precise user controllability. Extensive experiments against several state-of-the-art methods, including both commercial tools and research approaches, across multiple metrics, demonstrate the effectiveness and superiority of our proposed approach.
- Abstract(参考訳): 拡散モデルは、強力な生成能力により画像アニメーションにおいて大きな進歩を遂げている。
しかし、入力された静的画像からの詳細な情報(例えば、スタイル、背景、および入力された静的画像のオブジェクト)との時空間的整合性を維持し、テキストプロンプトで案内されたアニメーション映像の滑らかさを確保することは依然として困難である。
本稿では、より優れた動き制御性を実現するための新しい画像アニメーションであるCinemoを紹介し、時間的一貫性と滑らかさを向上する。
一般に,Cinemoの学習・推論段階における3つの効果的な戦略を提案する。
トレーニング段階では、Cinemoは、運動拡散モデルを介して後続を直接予測するのではなく、運動残差の分布の学習に重点を置いている。
さらに、Cinemoの運動強度の制御性を改善するために、構造的類似度指数に基づく戦略が提案されている。
推定段階では、離散コサイン変換に基づくノイズ改善手法を導入し、突発的な動きの変化を緩和する。
このような3つの戦略により、シネモは高度に一貫性があり、滑らかで、運動制御可能な結果が得られる。
従来の方法と比較して、Cinemoはよりシンプルで正確なユーザコントロール機能を提供する。
提案手法の有効性と優位性を実証するために, 市販のツールや研究手法を含むいくつかの最先端手法に対する大規模な実験を行った。
関連論文リスト
- Human Motion Synthesis_ A Diffusion Approach for Motion Stitching and In-Betweening [2.5165775267615205]
本研究では,現実的な人間の動きを生成するための変圧器を用いた拡散モデルを提案する。
提案手法は, 中間配列の生成において高い性能を示した。
本稿では,Frechet Inception Distance(FID),Diversity,Multimodalityなどの定量的指標を用いて,本手法の性能評価を行った。
論文 参考訳(メタデータ) (2024-09-10T18:02:32Z) - COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation [98.05046790227561]
COINは、人間の動きとカメラの動きを細粒度に制御できる、コントロール・インパインティング・モーション拡散である。
COINは、グローバルな人間の動き推定とカメラの動き推定という観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-08-29T10:36:29Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - Fine-Grained Spatiotemporal Motion Alignment for Contrastive Video Representation Learning [16.094271750354835]
モーション情報は、堅牢で一般化されたビデオ表現に不可欠である。
近年の研究では、ビデオコントラスト学習における動き情報の源として、フレーム差が採用されている。
本稿では,適切な動き情報を導入可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-01T07:03:27Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - Unsupervised Motion Representation Enhanced Network for Action
Recognition [4.42249337449125]
連続するフレーム間の動きの表現は、ビデオの理解を大いに促進することが証明されている。
効果的な光フロー解決器であるTV-L1法は、抽出した光フローをキャッシュするために時間と費用がかかる。
UF-TSN(UF-TSN)は、軽量な非監視光フロー推定器を組み込んだ、エンドツーエンドのアクション認識手法です。
論文 参考訳(メタデータ) (2021-03-05T04:14:32Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。