論文の概要: TLCM: Training-efficient Latent Consistency Model for Image Generation with 2-8 Steps
- arxiv url: http://arxiv.org/abs/2406.05768v4
- Date: Wed, 30 Oct 2024 06:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:24:44.610357
- Title: TLCM: Training-efficient Latent Consistency Model for Image Generation with 2-8 Steps
- Title(参考訳): TLCM:2-8ステップの画像生成のための訓練効率の遅い一貫性モデル
- Authors: Qingsong Xie, Zhenyi Liao, Zhijie Deng, Chen chen, Haonan Lu,
- Abstract要約: 潜伏拡散モデル(LDM)を高速で採取できるものに蒸留することは、研究の関心を惹きつけている。
本稿では,これらの課題を克服するために,学習効率の高い遅延一貫性モデル(TLCM)を提案する。
A100 GPUでのトレーニング時間はわずか70時間で、SDXLから蒸留した3ステップのTLCMは、33.68のCLIPスコアと、MSCOCO-2017 5Kベンチマークで5.97の美的スコアを達成した。
- 参考スコア(独自算出の注目度): 12.395969703425648
- License:
- Abstract: Distilling latent diffusion models (LDMs) into ones that are fast to sample from is attracting growing research interest. However, the majority of existing methods face two critical challenges: (1) They hinge on long training using a huge volume of real data. (2) They routinely lead to quality degradation for generation, especially in text-image alignment. This paper proposes a novel training-efficient Latent Consistency Model (TLCM) to overcome these challenges. Our method first accelerates LDMs via data-free multistep latent consistency distillation (MLCD), and then data-free latent consistency distillation is proposed to efficiently guarantee the inter-segment consistency in MLCD. Furthermore, we introduce bags of techniques, e.g., distribution matching, adversarial learning, and preference learning, to enhance TLCM's performance at few-step inference without any real data. TLCM demonstrates a high level of flexibility by enabling adjustment of sampling steps within the range of 2 to 8 while still producing competitive outputs compared to full-step approaches. Notably, TLCM enjoys the data-free merit by employing synthetic data from the teacher for distillation. With just 70 training hours on an A100 GPU, a 3-step TLCM distilled from SDXL achieves an impressive CLIP Score of 33.68 and an Aesthetic Score of 5.97 on the MSCOCO-2017 5K benchmark, surpassing various accelerated models and even outperforming the teacher model in human preference metrics. We also demonstrate the versatility of TLCMs in applications including image style transfer, controllable generation, and Chinese-to-image generation.
- Abstract(参考訳): 潜伏拡散モデル(LDM)を高速で採取できるものに蒸留することは、研究の関心を惹きつけている。
しかし,既存の手法の大部分は,(1)大量の実データを用いて長期トレーニングを行うという2つの重要な課題に直面している。
2) テキスト画像のアライメントでは, 品質劣化が日常的に起こる。
本稿では,これらの課題を克服するために,学習効率の高い遅延一貫性モデル(TLCM)を提案する。
本手法は,データフリー多段潜時整合蒸留(MLCD)を用いてLCMを高速化し,データフリー多段潜時整合蒸留(MLCD)を提案する。
さらに,TLCMの性能を実データなしで数段階の推論で向上する手法,例えば,分布マッチング,敵対学習,選好学習などを導入する。
TLCMは、2~8の範囲でのサンプリングステップの調整を可能にしながら、フルステップのアプローチと比較して競争力のあるアウトプットを生成することにより、高いレベルの柔軟性を示す。
特に、TLCMは、教師の合成データを蒸留に用いることにより、データフリーのメリットを享受する。
A100 GPUでのトレーニング時間はわずか70時間で、SDXLから蒸留した3段階のTLCMは、MSCOCO-2017 5Kベンチマークで33.68のCLIPスコアと5.97のAesthetic Scoreを達成し、様々な加速されたモデルを超え、人間の好みの指標で教師モデルよりも優れています。
また,画像スタイルの転送,制御可能生成,中国画像生成などのアプリケーションにおいて,TLCMの汎用性を示す。
関連論文リスト
- See Further When Clear: Curriculum Consistency Model [20.604239652914355]
本稿では,時間ステップ間で学習の複雑さを安定させ,バランスをとるCCMを提案する。
具体的には,各時期の蒸留工程をカリキュラムとみなし,学習の複雑さを定量化するためのピーク信号対雑音比(PSNR)に基づくメトリクスを導入する。
CIFAR-10ではFr't Inception Distance(FID)スコアが1.64、ImageNet 64x64では2.18である。
論文 参考訳(メタデータ) (2024-12-09T08:39:01Z) - p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay [18.958138693220704]
そこで我々は,Mixture-of-Depths (MoD) 機構を利用して,効率的なマルチモーダル大言語モデル(MLLM)を構築することを提案する。
我々は、Tanh-gateweight normalization (TanhNorm) と symmetric token reweighting (STRing) の2つの新しい設計でMoDモジュールを適応する。
我々のモデルであるp-MoDは、ベースラインモデルの性能にマッチまたは超え、推論時に55.6%のTFLOPと53.8%のKVキャッシュストレージ、トレーニング時に77.7%のGPU時間しか持たない。
論文 参考訳(メタデータ) (2024-12-05T18:58:03Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Guided Score identity Distillation for Data-Free One-Step Text-to-Image Generation [62.30570286073223]
拡散に基づくテキスト・画像生成モデルは、テキスト記述と整合した画像を生成する能力を実証している。
本研究では, 実データにアクセスすることなく, 事前学習した拡散モデルの効率的な蒸留を可能にする, データフリーガイド蒸留法を提案する。
データフリー蒸留法は, 1ステップ生成装置で生成した合成画像のみをトレーニングすることにより, FIDとCLIPのスコアを急速に向上させ, 競争力のあるCLIPスコアを維持しつつ, 最先端のFID性能を実現する。
論文 参考訳(メタデータ) (2024-06-03T17:44:11Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - Directly Denoising Diffusion Models [6.109141407163027]
数ステップのサンプリングで現実的な画像を生成するための単純で汎用的なアプローチであるDDDM(Directly Denoising Diffusion Model)を提案する。
本モデルでは, CIFAR-10のFIDスコアを1段階, 2段階のサンプリングで2.57と2.33とし, GANと蒸留モデルから得られたFIDスコアをそれぞれ上回った。
ImageNet 64x64の場合、当社のアプローチは主要なモデルに対する競争相手として機能します。
論文 参考訳(メタデータ) (2024-05-22T11:20:32Z) - Reward Guided Latent Consistency Distillation [86.8911705127924]
効率的なテキスト・画像合成のためのパラダイムとしてLCD(Latent Consistency Distillation)が登場している。
トレーニング中にLCDの出力と人間の好みを合わせることで品質損失を補償する。
論文 参考訳(メタデータ) (2024-03-16T22:14:56Z) - Improved Techniques for Training Consistency Models [13.475711217989975]
本稿では, 蒸留なしでデータから直接一貫性モデルを学習する, 整合性トレーニングのための改良手法を提案する。
整合性学習目的のための対数正規雑音スケジュールを提案し、トレーニングの繰り返し回数毎に全離散化ステップを2倍にすることを提案する。
これらの修正により、一貫性モデルは1回のサンプリングステップでCIFAR-10で2.51と3.25のFIDスコア、ImageNetで64ドルをそれぞれ達成できる。
論文 参考訳(メタデータ) (2023-10-22T05:33:38Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。