Fugu-MT 論文翻訳(概要): Reward Guided Latent Consistency Distillation

論文の概要: Reward Guided Latent Consistency Distillation

arxiv url: http://arxiv.org/abs/2403.11027v2
Date: Mon, 07 Oct 2024 18:47:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 22:57:09.321949
Title: Reward Guided Latent Consistency Distillation
Title（参考訳）: Reward Guided Latent Consistency Distillation
Authors: Jiachen Li, Weixi Feng, Wenhu Chen, William Yang Wang,
Abstract要約: 効率的なテキスト・画像合成のためのパラダイムとしてLCD(Latent Consistency Distillation)が登場している。トレーニング中にLCDの出力と人間の好みを合わせることで品質損失を補償する。
参考スコア（独自算出の注目度）: 86.8911705127924
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Latent Consistency Distillation (LCD) has emerged as a promising paradigm for efficient text-to-image synthesis. By distilling a latent consistency model (LCM) from a pre-trained teacher latent diffusion model (LDM), LCD facilitates the generation of high-fidelity images within merely 2 to 4 inference steps. However, the LCM's efficient inference is obtained at the cost of the sample quality. In this paper, we propose compensating the quality loss by aligning LCM's output with human preference during training. Specifically, we introduce Reward Guided LCD (RG-LCD), which integrates feedback from a reward model (RM) into the LCD process by augmenting the original LCD loss with the objective of maximizing the reward associated with LCM's single-step generation. As validated through human evaluation, when trained with the feedback of a good RM, the 2-step generations from our RG-LCM are favored by humans over the 50-step DDIM samples from the teacher LDM, representing a 25-time inference acceleration without quality loss. As directly optimizing towards differentiable RMs can suffer from over-optimization, we take the initial step to overcome this difficulty by proposing the use of a latent proxy RM (LRM). This novel component serves as an intermediary, connecting our LCM with the RM. Empirically, we demonstrate that incorporating the LRM into our RG-LCD successfully avoids high-frequency noise in the generated images, contributing to both improved Fr\'echet Inception Distance (FID) on MS-COCO and a higher HPSv2.1 score on HPSv2's test set, surpassing those achieved by the baseline LCM.
Abstract（参考訳）: 効率的なテキスト・画像合成のためのパラダイムとしてLCD(Latent Consistency Distillation)が登場している。事前学習した教師潜在拡散モデル(LDM)から潜在整合性モデル(LCM)を蒸留することにより、LCDは2～4段階の推論ステップで高忠実度画像の生成を容易にする。しかし, LCMの効率的な推論は, 試料品質を犠牲にして得られる。本稿では,LCMの出力とトレーニング中の人間の嗜好を合わせることで品質損失を補償する手法を提案する。具体的には、報酬モデル(RM)からのフィードバックをLCDプロセスに統合するReward Guided LCD(RG-LCD)を導入する。評価の結果,RG-LCMから得られた2ステップ世代は,教師のLCMから得られた50ステップのDDIMサンプルよりも,品質を損なうことなく,25時間の推論加速を表現できることがわかった。差別化可能なRMへの直接最適化は過度な最適化に悩まされる可能性があるので、我々は遅延プロキシRM(LRM)の使用を提案することで、この難しさを克服するための最初のステップを踏み出す。この新しいコンポーネントは仲介役として機能し、私たちのLCMとRMを接続します。 RG-LCDにLRMを組み込むことで生成画像の高周波ノイズを回避できることを実証し、MS-COCOにおけるFr'echet Inception Distance(FID)の改善とHPSv2のテストセットにおけるHPSv2.1スコアの向上の両方に寄与し、ベースラインLCMにより達成されたノイズを上回ることを実証した。

関連論文リスト

Decoupling Multi-Contrast Super-Resolution: Pairing Unpaired Synthesis with Implicit Representations [6.255537948555454]
マルチコントラスト・スーパーリゾリューション技術は、低解像度のコントラストの品質を高めることができる。既存のMCSRメソッドは、しばしば固定解像度の設定を前提としており、すべて大きな完全にペアのトレーニングデータセットを必要とする。本稿では,ペア化トレーニングデータの必要性を排除し,任意のアップスケーリングをサポートするモジュール型マルチコントラスト超解法フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-09T07:48:52Z)
Delta-WKV: A Novel Meta-in-Context Learner for MRI Super-Resolution [0.7864304771129751]
我々は,メタ・イン・コンテキスト・ラーニング(MiCL)とデルタ・ルールを組み合わせた新しいMRI超解像モデルであるDelta-WKVを提案し,MRI画像の局所パターンとグローバルパターンの両方をよりよく認識する。デルタ-WKVは既存の手法より優れており、PSNRを0.06dB、SSIMを0.001改善し、トレーニングと推論時間を15%以上削減している。
論文参考訳（メタデータ） (2025-02-28T08:49:46Z)
InterLCM: Low-Quality Images as Intermediate States of Latent Consistency Models for Effective Blind Face Restoration [106.70903819362402]
拡散前駆体は、低画質画像の復元のために、復元データセットの微細調整拡散モデル(DM)によってブラインドフェイス復元(BFR)に使用されている。我々は,その優れたセマンティック一貫性と効率のために潜在一貫性モデル(LCM)を活用するために,InterLCMを提案する。 InterLCMは、合成データセットと実世界のデータセットの両方において既存のアプローチより優れており、推論速度も高速である。
論文参考訳（メタデータ） (2025-02-04T10:51:20Z)
AP-LDM: Attentive and Progressive Latent Diffusion Model for Training-Free High-Resolution Image Generation [12.564266865237343]
遅延拡散モデル(LDM)は、しばしば高分解能(HR)画像を直接生成する際に重要な構造歪みを経験する。生成プロセスの高速化を図り,HR画像の品質向上を目的とした注意・進歩型LDM(Attentive and Progressive LDM)を提案する。 AP-LDM は LDM の分解過程を, (i) 注意的訓練分解性脱ノイズ, (ii) 進行性高分解能脱ノイズの2段階に分解する。
論文参考訳（メタデータ） (2024-10-08T13:56:28Z)
TLCM: Training-efficient Latent Consistency Model for Image Generation with 2-8 Steps [12.395969703425648]
潜伏拡散モデル(LDM)を高速で採取できるものに蒸留することは、研究の関心を惹きつけている。本稿では,これらの課題を克服するために,学習効率の高い遅延一貫性モデル(TLCM)を提案する。 A100 GPUでのトレーニング時間はわずか70時間で、SDXLから蒸留した3ステップのTLCMは、33.68のCLIPスコアと、MSCOCO-2017 5Kベンチマークで5.97の美的スコアを達成した。
論文参考訳（メタデータ） (2024-06-09T12:55:50Z)
Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。まず、回帰損失と高価なデータセット構築の必要性を排除します。第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文参考訳（メタデータ） (2024-05-23T17:59:49Z)
EdgeFusion: On-Device Text-to-Image Generation [3.3345550849564836]
我々はテキスト・ツー・イメージ生成のためのコンパクトSD変種BK-SDMを開発した。我々は、リソース制限エッジデバイス上で1秒未満のレイテンシで、わずか2ステップで、フォトリアリスティックなテキスト整列画像の高速生成を実現する。
論文参考訳（メタデータ） (2024-04-18T06:02:54Z)
LCM-LoRA: A Universal Stable-Diffusion Acceleration Module [52.8517132452467]
LCM(Latent Consistency Models)は、テキストから画像への生成タスクの高速化において、優れたパフォーマンスを実現している。本報告はLRA蒸留を大型の安定拡散モデルに適用することによりLCMの可能性をさらに拡張する。 LCM蒸留により得られたLoRAパラメータを LCM-LoRA という汎用安定拡散加速モジュールとして同定した。
論文参考訳（メタデータ） (2023-11-09T18:04:15Z)
Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文参考訳（メタデータ） (2023-10-06T17:11:58Z)
Cross-Modality Earth Mover's Distance for Visible Thermal Person Re-Identification [82.01051164653583]
Visible thermal person re-identification (VT-ReID) は、モダリティ間の相違と同一性内変異に悩まされる。我々は,モーダルアライメント中の個人内変動の影響を軽減することができるクロスモーダルアースモーバー距離(CM-EMD)を提案する。
論文参考訳（メタデータ） (2022-03-03T12:26:59Z)
Two-Stage Self-Supervised Cycle-Consistency Network for Reconstruction of Thin-Slice MR Images [62.4428833931443]
太いスライス磁気共鳴(MR)画像は、しばしば冠状および矢状視で構造的にぼやけている。深層学習は、これらの低分解能(LR)症例から高分解能(HR)薄膜MR画像を再構築する大きな可能性を示している。 MRスライス再構成のための2段階自己監督型サイクル一貫性ネットワーク(TSCNet)を提案する。
論文参考訳（メタデータ） (2021-06-29T13:29:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。