論文の概要: Taming Consistency Distillation for Accelerated Human Image Animation
- arxiv url: http://arxiv.org/abs/2504.11143v1
- Date: Tue, 15 Apr 2025 12:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:09:44.734110
- Title: Taming Consistency Distillation for Accelerated Human Image Animation
- Title(参考訳): 高速な人体画像アニメーションのためのテーピング一貫性蒸留法
- Authors: Xiang Wang, Shiwei Zhang, Hangjie Yuan, Yujie Wei, Yingya Zhang, Changxin Gao, Yuehuan Wang, Nong Sang,
- Abstract要約: DanceLCMは、たった2-4ステップで、最先端のビデオ拡散モデルに匹敵する結果を得る。
コードとモデルは公開されます。
- 参考スコア(独自算出の注目度): 47.63111489003292
- License:
- Abstract: Recent advancements in human image animation have been propelled by video diffusion models, yet their reliance on numerous iterative denoising steps results in high inference costs and slow speeds. An intuitive solution involves adopting consistency models, which serve as an effective acceleration paradigm through consistency distillation. However, simply employing this strategy in human image animation often leads to quality decline, including visual blurring, motion degradation, and facial distortion, particularly in dynamic regions. In this paper, we propose the DanceLCM approach complemented by several enhancements to improve visual quality and motion continuity at low-step regime: (1) segmented consistency distillation with an auxiliary light-weight head to incorporate supervision from real video latents, mitigating cumulative errors resulting from single full-trajectory generation; (2) a motion-focused loss to centre on motion regions, and explicit injection of facial fidelity features to improve face authenticity. Extensive qualitative and quantitative experiments demonstrate that DanceLCM achieves results comparable to state-of-the-art video diffusion models with a mere 2-4 inference steps, significantly reducing the inference burden without compromising video quality. The code and models will be made publicly available.
- Abstract(参考訳): 近年のヒト画像アニメーションの進歩はビデオ拡散モデルによって促進されているが、多くの反復的復調ステップに依存しているため、推論コストが高く、速度が遅い。
直感的な解決策は、一貫性の蒸留による効果的な加速パラダイムとして機能する一貫性モデルを採用することである。
しかし、人間の画像アニメーションにこの戦略を単純に利用すれば、視覚的ぼやけ、動きの劣化、顔の歪みなど、特に動的領域における品質の低下につながることが多い。
本稿では,低段階における視覚的品質向上と運動継続性向上を補完するDanceLCMアプローチを提案する。(1) 補助軽量ヘッドによる分断整合蒸留により,実ビデオ遅延からの監督,(2) 動き領域中心への移動集中損失,および顔の忠実度向上のための顔の忠実度特徴の明示的注入などである。
広汎な定性的および定量的実験により、DanceLCMは、わずか2-4段の推論ステップを持つ最先端のビデオ拡散モデルに匹敵する結果を達成し、ビデオ品質を損なうことなく、推論負担を大幅に低減することを示した。
コードとモデルは公開されます。
関連論文リスト
- Real-time One-Step Diffusion-based Expressive Portrait Videos Generation [85.07446744308247]
我々は,OSA-LCM (One-Step Avatar Latent Consistency Model)を導入し,リアルタイム拡散に基づくアバターを実現する。
提案手法は,既存の手法に匹敵する映像品質を実現するが,サンプリングステップは1回しか必要とせず,処理速度は10倍以上に向上する。
論文 参考訳(メタデータ) (2024-12-18T03:42:42Z) - Accelerating Video Diffusion Models via Distribution Matching [26.475459912686986]
本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。
提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。
ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
論文 参考訳(メタデータ) (2024-12-08T11:36:32Z) - High Quality Human Image Animation using Regional Supervision and Motion Blur Condition [97.97432499053966]
我々は、顔と手の忠実度を高めるために、詳細な地域に対する地域監督を活用している。
第二に、動作のぼかしを明示的にモデル化し、外観の質をさらに向上させる。
第3に,高精細な人体アニメーションのための新しいトレーニング戦略を探求し,全体の忠実度を向上する。
論文 参考訳(メタデータ) (2024-09-29T06:46:31Z) - COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation [98.05046790227561]
COINは、人間の動きとカメラの動きを細粒度に制御できる、コントロール・インパインティング・モーション拡散である。
COINは、グローバルな人間の動き推定とカメラの動き推定という観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-08-29T10:36:29Z) - Motion Consistency Model: Accelerating Video Diffusion with Disentangled Motion-Appearance Distillation [134.22372190926362]
画像拡散蒸留は, 非常に少ないサンプリングステップで高忠実度生成を実現する。
これらのテクニックをビデオ拡散に直接適用すると、公開ビデオデータセットの視覚的品質が制限されるため、フレーム品質が不満足になることが多い。
本研究の目的は,高画質の画像データを用いて,フレームの外観を改善しながらビデオ拡散蒸留を改善することである。
論文 参考訳(メタデータ) (2024-06-11T02:09:46Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - AAMDM: Accelerated Auto-regressive Motion Diffusion Model [10.94879097495769]
本稿では,AAMDM(Accelerated Auto-Regressive Motion Diffusion Model)を紹介する。
AAMDMは、品質、多様性、効率性を同時に達成するために設計された、新しいモーション合成フレームワークである。
AAMDMは動作品質,多様性,実行効率において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-12-02T23:52:21Z) - Annealed Score-Based Diffusion Model for MR Motion Artifact Reduction [37.41561581618164]
モーションアーティファクトリダクションは、MRイメージングにおいて重要な研究トピックの1つである。
我々はMRIの動作アーチファクト低減のためのアニール式スコアベース拡散モデルを提案する。
実験により, 提案手法は, シミュレーションおよび生体内動作アーティファクトの両方を効果的に低減することを確認した。
論文 参考訳(メタデータ) (2023-01-08T12:16:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。