論文の概要: Reward Guided Latent Consistency Distillation
- arxiv url: http://arxiv.org/abs/2403.11027v2
- Date: Mon, 07 Oct 2024 18:47:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:29:39.875052
- Title: Reward Guided Latent Consistency Distillation
- Title(参考訳): Reward Guided Latent Consistency Distillation
- Authors: Jiachen Li, Weixi Feng, Wenhu Chen, William Yang Wang,
- Abstract要約: 効率的なテキスト・画像合成のためのパラダイムとしてLCD(Latent Consistency Distillation)が登場している。
トレーニング中にLCDの出力と人間の好みを合わせることで品質損失を補償する。
- 参考スコア(独自算出の注目度): 86.8911705127924
- License:
- Abstract: Latent Consistency Distillation (LCD) has emerged as a promising paradigm for efficient text-to-image synthesis. By distilling a latent consistency model (LCM) from a pre-trained teacher latent diffusion model (LDM), LCD facilitates the generation of high-fidelity images within merely 2 to 4 inference steps. However, the LCM's efficient inference is obtained at the cost of the sample quality. In this paper, we propose compensating the quality loss by aligning LCM's output with human preference during training. Specifically, we introduce Reward Guided LCD (RG-LCD), which integrates feedback from a reward model (RM) into the LCD process by augmenting the original LCD loss with the objective of maximizing the reward associated with LCM's single-step generation. As validated through human evaluation, when trained with the feedback of a good RM, the 2-step generations from our RG-LCM are favored by humans over the 50-step DDIM samples from the teacher LDM, representing a 25-time inference acceleration without quality loss. As directly optimizing towards differentiable RMs can suffer from over-optimization, we take the initial step to overcome this difficulty by proposing the use of a latent proxy RM (LRM). This novel component serves as an intermediary, connecting our LCM with the RM. Empirically, we demonstrate that incorporating the LRM into our RG-LCD successfully avoids high-frequency noise in the generated images, contributing to both improved Fr\'echet Inception Distance (FID) on MS-COCO and a higher HPSv2.1 score on HPSv2's test set, surpassing those achieved by the baseline LCM.
- Abstract(参考訳): 効率的なテキスト・画像合成のためのパラダイムとしてLCD(Latent Consistency Distillation)が登場している。
事前学習した教師潜在拡散モデル(LDM)から潜在整合性モデル(LCM)を蒸留することにより、LCDは2~4段階の推論ステップで高忠実度画像の生成を容易にする。
しかし, LCMの効率的な推論は, 試料品質を犠牲にして得られる。
本稿では,LCMの出力とトレーニング中の人間の嗜好を合わせることで品質損失を補償する手法を提案する。
具体的には、報酬モデル(RM)からのフィードバックをLCDプロセスに統合するReward Guided LCD(RG-LCD)を導入する。
評価の結果,RG-LCMから得られた2ステップ世代は,教師のLCMから得られた50ステップのDDIMサンプルよりも,品質を損なうことなく,25時間の推論加速を表現できることがわかった。
差別化可能なRMへの直接最適化は過度な最適化に悩まされる可能性があるので、我々は遅延プロキシRM(LRM)の使用を提案することで、この難しさを克服するための最初のステップを踏み出す。
この新しいコンポーネントは仲介役として機能し、私たちのLCMとRMを接続します。
RG-LCDにLRMを組み込むことで生成画像の高周波ノイズを回避できることを実証し、MS-COCOにおけるFr'echet Inception Distance(FID)の改善とHPSv2のテストセットにおけるHPSv2.1スコアの向上の両方に寄与し、ベースラインLCMにより達成されたノイズを上回ることを実証した。
関連論文リスト
- AP-LDM: Attentive and Progressive Latent Diffusion Model for Training-Free High-Resolution Image Generation [12.564266865237343]
遅延拡散モデル(LDM)は、しばしば高分解能(HR)画像を直接生成する際に重要な構造歪みを経験する。
生成プロセスの高速化を図り,HR画像の品質向上を目的とした注意・進歩型LDM(Attentive and Progressive LDM)を提案する。
AP-LDM は LDM の分解過程を, (i) 注意的訓練分解性脱ノイズ, (ii) 進行性高分解能脱ノイズの2段階に分解する。
論文 参考訳(メタデータ) (2024-10-08T13:56:28Z) - TLCM: Training-efficient Latent Consistency Model for Image Generation with 2-8 Steps [12.395969703425648]
潜伏拡散モデル(LDM)を高速で採取できるものに蒸留することは、研究の関心を惹きつけている。
本稿では,これらの課題を克服するために,学習効率の高い遅延一貫性モデル(TLCM)を提案する。
A100 GPUでのトレーニング時間はわずか70時間で、SDXLから蒸留した3ステップのTLCMは、33.68のCLIPスコアと、MSCOCO-2017 5Kベンチマークで5.97の美的スコアを達成した。
論文 参考訳(メタデータ) (2024-06-09T12:55:50Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - EdgeFusion: On-Device Text-to-Image Generation [3.3345550849564836]
我々はテキスト・ツー・イメージ生成のためのコンパクトSD変種BK-SDMを開発した。
我々は、リソース制限エッジデバイス上で1秒未満のレイテンシで、わずか2ステップで、フォトリアリスティックなテキスト整列画像の高速生成を実現する。
論文 参考訳(メタデータ) (2024-04-18T06:02:54Z) - LCM-LoRA: A Universal Stable-Diffusion Acceleration Module [52.8517132452467]
LCM(Latent Consistency Models)は、テキストから画像への生成タスクの高速化において、優れたパフォーマンスを実現している。
本報告はLRA蒸留を大型の安定拡散モデルに適用することによりLCMの可能性をさらに拡張する。
LCM蒸留により得られたLoRAパラメータを LCM-LoRA という汎用安定拡散加速モジュールとして同定した。
論文 参考訳(メタデータ) (2023-11-09T18:04:15Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - Cross-Modality Earth Mover's Distance for Visible Thermal Person
Re-Identification [82.01051164653583]
Visible thermal person re-identification (VT-ReID) は、モダリティ間の相違と同一性内変異に悩まされる。
我々は,モーダルアライメント中の個人内変動の影響を軽減することができるクロスモーダルアースモーバー距離(CM-EMD)を提案する。
論文 参考訳(メタデータ) (2022-03-03T12:26:59Z) - Two-Stage Self-Supervised Cycle-Consistency Network for Reconstruction
of Thin-Slice MR Images [62.4428833931443]
太いスライス磁気共鳴(MR)画像は、しばしば冠状および矢状視で構造的にぼやけている。
深層学習は、これらの低分解能(LR)症例から高分解能(HR)薄膜MR画像を再構築する大きな可能性を示している。
MRスライス再構成のための2段階自己監督型サイクル一貫性ネットワーク(TSCNet)を提案する。
論文 参考訳(メタデータ) (2021-06-29T13:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。