論文の概要: FADA: Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation
- arxiv url: http://arxiv.org/abs/2412.16915v1
- Date: Sun, 22 Dec 2024 08:19:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:52:26.494353
- Title: FADA: Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation
- Title(参考訳): FADA:Multi-Supervised Multi-CFG Distillationを用いた高速拡散アバター合成
- Authors: Tianyun Zhong, Chao Liang, Jianwen Jiang, Gaojie Lin, Jiaqi Yang, Zhou Zhao,
- Abstract要約: 拡散に基づく音声駆動型アバター手法は近年,高忠実で鮮明で表現力のある結果に注目されている。
拡散モデルの様々な蒸留技術が開発されているにもかかわらず, 自然拡散蒸留法では良好な結果が得られないことがわかった。
本稿では,FADA (Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation) を提案する。
- 参考スコア(独自算出の注目度): 55.424665700339695
- License:
- Abstract: Diffusion-based audio-driven talking avatar methods have recently gained attention for their high-fidelity, vivid, and expressive results. However, their slow inference speed limits practical applications. Despite the development of various distillation techniques for diffusion models, we found that naive diffusion distillation methods do not yield satisfactory results. Distilled models exhibit reduced robustness with open-set input images and a decreased correlation between audio and video compared to teacher models, undermining the advantages of diffusion models. To address this, we propose FADA (Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation). We first designed a mixed-supervised loss to leverage data of varying quality and enhance the overall model capability as well as robustness. Additionally, we propose a multi-CFG distillation with learnable tokens to utilize the correlation between audio and reference image conditions, reducing the threefold inference runs caused by multi-CFG with acceptable quality degradation. Extensive experiments across multiple datasets show that FADA generates vivid videos comparable to recent diffusion model-based methods while achieving an NFE speedup of 4.17-12.5 times. Demos are available at our webpage http://fadavatar.github.io.
- Abstract(参考訳): 拡散に基づく音声駆動型アバター手法は近年,高忠実で鮮明で表現力のある結果に注目されている。
しかし、推論速度が遅いため、実用化は困難である。
拡散モデルの様々な蒸留技術が開発されているにもかかわらず, 自然拡散蒸留法では良好な結果が得られないことがわかった。
蒸留モデルでは,教師モデルと比較して,オープンセット入力画像によるロバスト性が低下し,音声とビデオの相関が低下し,拡散モデルの利点が損なわれている。
そこで我々はFADA (Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation)を提案する。
我々はまず、様々な品質のデータを活用し、モデル全体の能力と堅牢性を高めるために、混合教師付き損失を設計した。
さらに,学習可能なトークンを用いたマルチCFG蒸留手法を提案する。
複数のデータセットにわたる大規模な実験により、FADAは最近の拡散モデルに基づく手法に匹敵する鮮やかなビデオを生成し、NFEの速度は4.17-12.5倍に向上した。
デモは私たちのWebページ http://fadavatar.github.io.comで公開されています。
関連論文リスト
- Relational Diffusion Distillation for Efficient Image Generation [27.127061578093674]
拡散モデルの高い遅延は、コンピューティングリソースの少ないエッジデバイスにおいて、その広範な応用を妨げる。
本研究では,拡散モデルの蒸留に適した新しい蒸留法である拡散蒸留(RDD)を提案する。
提案したRDDは, 最先端の蒸留蒸留法と比較すると1.47FID減少し, 256倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-10-10T07:40:51Z) - Accelerating Diffusion Models with One-to-Many Knowledge Distillation [35.130782477699704]
我々は,1つの教師拡散モデルを複数の学生拡散モデルに蒸留する1対多の知識蒸留(O2MKD)を導入する。
CIFAR10, LSUN Church, CelebA-HQ with DDPM and COCO30K with Stable Diffusion 実験の結果, O2MKD は従来の知識蒸留法や高速サンプリング法にも適用可能であることが示された。
論文 参考訳(メタデータ) (2024-10-05T15:10:04Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - Latent Denoising Diffusion GAN: Faster sampling, Higher image quality [0.0]
Latent Denoising Diffusion GANは、トレーニング済みのオートエンコーダを使用して、画像をコンパクトなLatent空間に圧縮する。
従来のDiffusionGANやWavelet Diffusionと比較して,評価指標の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T16:32:23Z) - Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文 参考訳(メタデータ) (2024-05-09T17:59:40Z) - Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation [24.236841051249243]
蒸留法は、モデルをマルチショットからシングルステップ推論にシフトすることを目的としている。
ADDの限界を克服する新しい蒸留法であるLADD(Latent Adversarial Diffusion Distillation)を導入する。
ピクセルベースのADDとは対照的に、LADDは事前訓練された潜伏拡散モデルから生成的特徴を利用する。
論文 参考訳(メタデータ) (2024-03-18T17:51:43Z) - Soft Mixture Denoising: Beyond the Expressive Bottleneck of Diffusion
Models [76.46246743508651]
我々は,現在の拡散モデルが後方認知において表現力のあるボトルネックを持っていることを示した。
本稿では,後方復調のための表現的かつ効率的なモデルであるソフトミキシング・デノナイジング(SMD)を導入する。
論文 参考訳(メタデータ) (2023-09-25T12:03:32Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。