論文の概要: Reward Guided Latent Consistency Distillation
- arxiv url: http://arxiv.org/abs/2403.11027v1
- Date: Sat, 16 Mar 2024 22:14:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 20:36:44.384937
- Title: Reward Guided Latent Consistency Distillation
- Title(参考訳): Reward Guided Latent Consistency Distillation
- Authors: Jiachen Li, Weixi Feng, Wenhu Chen, William Yang Wang,
- Abstract要約: 効率的なテキスト・画像合成のためのパラダイムとしてLCD(Latent Consistency Distillation)が登場している。
トレーニング中にLCDの出力と人間の好みを合わせることで品質損失を補償する。
- 参考スコア(独自算出の注目度): 86.8911705127924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent Consistency Distillation (LCD) has emerged as a promising paradigm for efficient text-to-image synthesis. By distilling a latent consistency model (LCM) from a pre-trained teacher latent diffusion model (LDM), LCD facilitates the generation of high-fidelity images within merely 2 to 4 inference steps. However, the LCM's efficient inference is obtained at the cost of the sample quality. In this paper, we propose compensating the quality loss by aligning LCM's output with human preference during training. Specifically, we introduce Reward Guided LCD (RG-LCD), which integrates feedback from a reward model (RM) into the LCD process by augmenting the original LCD loss with the objective of maximizing the reward associated with LCM's single-step generation. As validated through human evaluation, when trained with the feedback of a good RM, the 2-step generations from our RG-LCM are favored by humans over the 50-step DDIM samples from the teacher LDM, representing a 25 times inference acceleration without quality loss. As directly optimizing towards differentiable RMs can suffer from over-optimization, we overcome this difficulty by proposing the use of a latent proxy RM (LRM). This novel component serves as an intermediary, connecting our LCM with the RM. Empirically, we demonstrate that incorporating the LRM into our RG-LCD successfully avoids high-frequency noise in the generated images, contributing to both improved FID on MS-COCO and a higher HPSv2.1 score on HPSv2's test set, surpassing those achieved by the baseline LCM.
- Abstract(参考訳): 効率的なテキスト・画像合成のためのパラダイムとしてLCD(Latent Consistency Distillation)が登場している。
事前学習した教師潜在拡散モデル(LDM)から潜在整合性モデル(LCM)を蒸留することにより、LCDは2~4段階の推論ステップで高忠実度画像の生成を容易にする。
しかし, LCMの効率的な推論は, 試料品質を犠牲にして得られる。
本稿では,LCMの出力とトレーニング中の人間の嗜好を合わせることで品質損失を補償する手法を提案する。
具体的には、報酬モデル(RM)からのフィードバックをLCDプロセスに統合するReward Guided LCD(RG-LCD)を導入する。
評価の結果,RG-LCMの2段階は,教師 LDM の50段階 DDIM サンプルに対して,品質損失を伴わずに25倍の推論加速を達成できた。
差別化可能なRMへの直接最適化は過度な最適化に悩まされるため、潜在プロキシRM(LRM)の使用を提案することで、この難しさを克服する。
この新しいコンポーネントは仲介役として機能し、私たちのLCMとRMを接続します。
RG-LCDにLRMを組み込むことで、生成画像の高周波ノイズを回避できることを実証し、MS-COCOでのFIDの改善とHPSv2のテストセットでのHPSv2.1スコアの向上の両方に寄与し、ベースラインLCMよりも優れていたことを実証した。
関連論文リスト
- EdgeFusion: On-Device Text-to-Image Generation [3.3345550849564836]
我々はテキスト・ツー・イメージ生成のためのコンパクトSD変種BK-SDMを開発した。
我々は、リソース制限エッジデバイス上で1秒未満のレイテンシで、わずか2ステップで、フォトリアリスティックなテキスト整列画像の高速生成を実現する。
論文 参考訳(メタデータ) (2024-04-18T06:02:54Z) - LCM-LoRA: A Universal Stable-Diffusion Acceleration Module [52.8517132452467]
LCM(Latent Consistency Models)は、テキストから画像への生成タスクの高速化において、優れたパフォーマンスを実現している。
本報告はLRA蒸留を大型の安定拡散モデルに適用することによりLCMの可能性をさらに拡張する。
LCM蒸留により得られたLoRAパラメータを LCM-LoRA という汎用安定拡散加速モジュールとして同定した。
論文 参考訳(メタデータ) (2023-11-09T18:04:15Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - EGIC: Enhanced Low-Bit-Rate Generative Image Compression Guided by Semantic Segmentation [0.030448596365296413]
EGICは、単一のモデルから歪み知覚曲線を効率的にトラバースできる拡張生成画像圧縮法である。
EGICは実装が簡単で、非常に軽量であり、優れた特性を提供する。
論文 参考訳(メタデータ) (2023-09-06T08:50:04Z) - Cross-Modality Earth Mover's Distance for Visible Thermal Person
Re-Identification [82.01051164653583]
Visible thermal person re-identification (VT-ReID) は、モダリティ間の相違と同一性内変異に悩まされる。
我々は,モーダルアライメント中の個人内変動の影響を軽減することができるクロスモーダルアースモーバー距離(CM-EMD)を提案する。
論文 参考訳(メタデータ) (2022-03-03T12:26:59Z) - Two-Stage Self-Supervised Cycle-Consistency Network for Reconstruction
of Thin-Slice MR Images [62.4428833931443]
太いスライス磁気共鳴(MR)画像は、しばしば冠状および矢状視で構造的にぼやけている。
深層学習は、これらの低分解能(LR)症例から高分解能(HR)薄膜MR画像を再構築する大きな可能性を示している。
MRスライス再構成のための2段階自己監督型サイクル一貫性ネットワーク(TSCNet)を提案する。
論文 参考訳(メタデータ) (2021-06-29T13:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。