論文の概要: UniFL: Improve Stable Diffusion via Unified Feedback Learning
- arxiv url: http://arxiv.org/abs/2404.05595v2
- Date: Wed, 22 May 2024 13:52:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 05:40:24.914739
- Title: UniFL: Improve Stable Diffusion via Unified Feedback Learning
- Title(参考訳): UniFL: 統一フィードバック学習による安定拡散の改善
- Authors: Jiacheng Zhang, Jie Wu, Yuxi Ren, Xin Xia, Huafeng Kuang, Pan Xie, Jiashi Li, Xuefeng Xiao, Min Zheng, Lean Fu, Guanbin Li,
- Abstract要約: 提案するUniFLは,フィードバック学習を活用して拡張モデルを包括的に拡張する統合フレームワークである。
UniFLには、視覚的品質を高める知覚的フィードバック学習、美的魅力を改善する分離されたフィードバック学習、推論速度を最適化する敵対的フィードバック学習という3つの重要な要素が組み込まれている。
詳細な実験と広範囲なユーザスタディにより,生成したモデルの品質と高速化の両面において,提案手法の優れた性能が検証された。
- 参考スコア(独自算出の注目度): 51.18278664629821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have revolutionized the field of image generation, leading to the proliferation of high-quality models and diverse downstream applications. However, despite these significant advancements, the current competitive solutions still suffer from several limitations, including inferior visual quality, a lack of aesthetic appeal, and inefficient inference, without a comprehensive solution in sight. To address these challenges, we present UniFL, a unified framework that leverages feedback learning to enhance diffusion models comprehensively. UniFL stands out as a universal, effective, and generalizable solution applicable to various diffusion models, such as SD1.5 and SDXL. Notably, UniFL incorporates three key components: perceptual feedback learning, which enhances visual quality; decoupled feedback learning, which improves aesthetic appeal; and adversarial feedback learning, which optimizes inference speed. In-depth experiments and extensive user studies validate the superior performance of our proposed method in enhancing both the quality of generated models and their acceleration. For instance, UniFL surpasses ImageReward by 17% user preference in terms of generation quality and outperforms LCM and SDXL Turbo by 57% and 20% in 4-step inference. Moreover, we have verified the efficacy of our approach in downstream tasks, including Lora, ControlNet, and AnimateDiff.
- Abstract(参考訳): 拡散モデルは画像生成の分野に革命をもたらし、高品質なモデルや様々な下流アプリケーションの普及につながった。
しかし、これらの顕著な進歩にもかかわらず、現在の競合ソリューションは、視力の劣る品質、美的魅力の欠如、非効率な推論など、包括的な解決策を目にせず、いくつかの制限に悩まされている。
これらの課題に対処するために,フィードバック学習を活用して拡張モデルを包括的に拡張する統合フレームワークUniFLを提案する。
UniFL は、SD1.5 や SDXL といった様々な拡散モデルに適用できる普遍的で効果的で一般化可能な解である。
視覚的品質を高める知覚フィードバック学習、美的魅力を改善する分離されたフィードバック学習、推論速度を最適化する敵対的フィードバック学習である。
詳細な実験と広範囲なユーザスタディにより,生成したモデルの品質と高速化の両面において,提案手法の優れた性能が検証された。
たとえば、UniFLは、生成品質の点でImageRewardを17%上回り、LCMとSDXL Turboを57%上回り、4段階推論では20%上回る。
さらに、Lora、ControlNet、AnimateDiffといった下流タスクにおけるアプローチの有効性を検証する。
関連論文リスト
- Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution [81.81748032199813]
蒸留不要1ステップ拡散モデルを提案する。
具体的には、敵対的訓練に参加するためのノイズ認識識別器(NAD)を提案する。
我々は、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Data-Free Federated Class Incremental Learning with Diffusion-Based Generative Memory [27.651921957220004]
拡散型生成メモリ(DFedDGM)を用いた新しいデータフリーフェデレーションクラスインクリメンタルラーニングフレームワークを提案する。
FLにおける一般の非IID問題を軽減するために拡散モデルの訓練を支援するために,新しいバランスの取れたサンプルを設計する。
また、情報理論の観点からエントロピーに基づくサンプルフィルタリング手法を導入し、生成サンプルの品質を向上させる。
論文 参考訳(メタデータ) (2024-05-22T20:59:18Z) - Navigating Heterogeneity and Privacy in One-Shot Federated Learning with Diffusion Models [6.921070916461661]
フェデレートラーニング(FL)は、複数のクライアントがデータのプライバシを保持しながらモデルをまとめてトレーニングすることを可能にする。
ワンショットフェデレーション学習は、コミュニケーションラウンドの削減、効率の向上、盗聴攻撃に対するセキュリティ向上によるソリューションとして登場した。
論文 参考訳(メタデータ) (2024-05-02T17:26:52Z) - LLDiffusion: Learning Degradation Representations in Diffusion Models
for Low-Light Image Enhancement [118.83316133601319]
現在の低照度画像強調(LLIE)の深層学習法は、通常、ペア化されたデータから学んだピクセルワイドマッピングに依存している。
本稿では,拡散モデルを用いたLLIEの劣化認識学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-27T07:22:51Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z) - Learning Enhancement From Degradation: A Diffusion Model For Fundus
Image Enhancement [21.91300560770087]
我々は新しい拡散モデルに基づくフレームワーク、"Learning Enhancement from Degradation (LED)"を紹介した。
LEDは、画質の悪い画像から画質の悪い画像まで、分解マッピングを学習する。
LEDは、臨床的に重要な特徴をより明瞭に維持する強化結果を出力することができる。
論文 参考訳(メタデータ) (2023-03-08T14:14:49Z) - AnycostFL: Efficient On-Demand Federated Learning over Heterogeneous
Edge Devices [20.52519915112099]
我々はAny CostFLというコスト調整可能なFLフレームワークを提案し、多様なエッジデバイスがローカル更新を効率的に実行できるようにする。
実験結果から,我々の学習フレームワークは,適切なグローバルテスト精度を実現するために,トレーニング遅延とエネルギー消費の最大1.9倍の削減が可能であることが示唆された。
論文 参考訳(メタデータ) (2023-01-08T15:25:55Z) - Multi-View Attention Transfer for Efficient Speech Enhancement [1.6932706284468382]
特徴量に基づく蒸留であるマルチビューアテンショントランスファー(MV-AT)を提案し、時間領域における効率的な音声強調モデルを得る。
MV-ATは、マルチビュー特徴抽出モデルに基づいて、教師ネットワークのマルチビュー知識を追加パラメータなしで生徒ネットワークに転送する。
論文 参考訳(メタデータ) (2022-08-22T14:47:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。