論文の概要: Taming Consistency Distillation for Accelerated Human Image Animation
- arxiv url: http://arxiv.org/abs/2504.11143v1
- Date: Tue, 15 Apr 2025 12:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 01:11:21.542467
- Title: Taming Consistency Distillation for Accelerated Human Image Animation
- Title(参考訳): 高速な人体画像アニメーションのためのテーピング一貫性蒸留法
- Authors: Xiang Wang, Shiwei Zhang, Hangjie Yuan, Yujie Wei, Yingya Zhang, Changxin Gao, Yuehuan Wang, Nong Sang,
- Abstract要約: DanceLCMは、たった2-4ステップで、最先端のビデオ拡散モデルに匹敵する結果を得る。
コードとモデルは公開されます。
- 参考スコア(独自算出の注目度): 47.63111489003292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in human image animation have been propelled by video diffusion models, yet their reliance on numerous iterative denoising steps results in high inference costs and slow speeds. An intuitive solution involves adopting consistency models, which serve as an effective acceleration paradigm through consistency distillation. However, simply employing this strategy in human image animation often leads to quality decline, including visual blurring, motion degradation, and facial distortion, particularly in dynamic regions. In this paper, we propose the DanceLCM approach complemented by several enhancements to improve visual quality and motion continuity at low-step regime: (1) segmented consistency distillation with an auxiliary light-weight head to incorporate supervision from real video latents, mitigating cumulative errors resulting from single full-trajectory generation; (2) a motion-focused loss to centre on motion regions, and explicit injection of facial fidelity features to improve face authenticity. Extensive qualitative and quantitative experiments demonstrate that DanceLCM achieves results comparable to state-of-the-art video diffusion models with a mere 2-4 inference steps, significantly reducing the inference burden without compromising video quality. The code and models will be made publicly available.
- Abstract(参考訳): 近年のヒト画像アニメーションの進歩はビデオ拡散モデルによって促進されているが、多くの反復的復調ステップに依存しているため、推論コストが高く、速度が遅い。
直感的な解決策は、一貫性の蒸留による効果的な加速パラダイムとして機能する一貫性モデルを採用することである。
しかし、人間の画像アニメーションにこの戦略を単純に利用すれば、視覚的ぼやけ、動きの劣化、顔の歪みなど、特に動的領域における品質の低下につながることが多い。
本稿では,低段階における視覚的品質向上と運動継続性向上を補完するDanceLCMアプローチを提案する。(1) 補助軽量ヘッドによる分断整合蒸留により,実ビデオ遅延からの監督,(2) 動き領域中心への移動集中損失,および顔の忠実度向上のための顔の忠実度特徴の明示的注入などである。
広汎な定性的および定量的実験により、DanceLCMは、わずか2-4段の推論ステップを持つ最先端のビデオ拡散モデルに匹敵する結果を達成し、ビデオ品質を損なうことなく、推論負担を大幅に低減することを示した。
コードとモデルは公開されます。
関連論文リスト
- REWIND: Real-Time Egocentric Whole-Body Motion Diffusion with Exemplar-Based Identity Conditioning [95.07708090428814]
本稿では,一段階拡散モデルREWINDを提案する。
身体中心運動と手の動きの相関を効果的にモデル化する。
また、ターゲットアイデンティティの小さなポーズ例に基づく新しいアイデンティティ条件付け手法を提案し、動き推定品質をさらに向上させる。
論文 参考訳(メタデータ) (2025-04-07T11:44:11Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Accelerating Video Diffusion Models via Distribution Matching [26.475459912686986]
本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。
提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。
ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
論文 参考訳(メタデータ) (2024-12-08T11:36:32Z) - High Quality Human Image Animation using Regional Supervision and Motion Blur Condition [97.97432499053966]
我々は、顔と手の忠実度を高めるために、詳細な地域に対する地域監督を活用している。
第二に、動作のぼかしを明示的にモデル化し、外観の質をさらに向上させる。
第3に,高精細な人体アニメーションのための新しいトレーニング戦略を探求し,全体の忠実度を向上する。
論文 参考訳(メタデータ) (2024-09-29T06:46:31Z) - COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation [98.05046790227561]
COINは、人間の動きとカメラの動きを細粒度に制御できる、コントロール・インパインティング・モーション拡散である。
COINは、グローバルな人間の動き推定とカメラの動き推定という観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-08-29T10:36:29Z) - Motion Consistency Model: Accelerating Video Diffusion with Disentangled Motion-Appearance Distillation [134.22372190926362]
画像拡散蒸留は, 非常に少ないサンプリングステップで高忠実度生成を実現する。
これらのテクニックをビデオ拡散に直接適用すると、公開ビデオデータセットの視覚的品質が制限されるため、フレーム品質が不満足になることが多い。
本研究の目的は,高画質の画像データを用いて,フレームの外観を改善しながらビデオ拡散蒸留を改善することである。
論文 参考訳(メタデータ) (2024-06-11T02:09:46Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。