論文の概要: Diff-Instruct*: Towards Human-Preferred One-step Text-to-image Generative Models
- arxiv url: http://arxiv.org/abs/2410.20898v1
- Date: Mon, 28 Oct 2024 10:26:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:18:57.116903
- Title: Diff-Instruct*: Towards Human-Preferred One-step Text-to-image Generative Models
- Title(参考訳): ディフ・インストラクション*: 人間の優先するワンステップテキスト・ツー・イメージ生成モデルを目指して
- Authors: Weijian Luo, Colin Zhang, Debing Zhang, Zhengyang Geng,
- Abstract要約: Diff-Instruct*(DI*)は1段階のテキスト・ツー・イメージ生成モデルを構築するためのデータフリーアプローチである。
安定拡散V1.5 を基準拡散モデルとし、DI* は以前の先行モデルを大きなマージンで上回る。
- 参考スコア(独自算出の注目度): 8.352666876052616
- License:
- Abstract: In this paper, we introduce the Diff-Instruct*(DI*), a data-free approach for building one-step text-to-image generative models that align with human preference while maintaining the ability to generate highly realistic images. We frame human preference alignment as online reinforcement learning using human feedback (RLHF), where the goal is to maximize the reward function while regularizing the generator distribution to remain close to a reference diffusion process. Unlike traditional RLHF approaches, which rely on the KL divergence for regularization, we introduce a novel score-based divergence regularization, which leads to significantly better performances. Although the direct calculation of this divergence remains intractable, we demonstrate that we can efficiently compute its \emph{gradient} by deriving an equivalent yet tractable loss function. Remarkably, with Stable Diffusion V1.5 as the reference diffusion model, DI* outperforms \emph{all} previously leading models by a large margin. When using the 0.6B PixelArt-$\alpha$ model as the reference diffusion, DI* achieves a new record Aesthetic Score of 6.30 and an Image Reward of 1.31 with only a single generation step, almost doubling the scores of the rest of the models with similar sizes. It also achieves an HPSv2 score of 28.70, establishing a new state-of-the-art benchmark. We also observe that DI* can improve the layout and enrich the colors of generated images.
- Abstract(参考訳): 本稿では,Diff-Instruct*(DI*)について紹介する。Diff-Instruct*(DI*)は1段階のテキスト・ツー・イメージ・ジェネレーティブ・モデルを構築するためのデータフリーな手法である。
人選好アライメントを人間フィードバックを用いたオンライン強化学習(RLHF)として設定し、その目的は報酬関数を最大化しつつ、ジェネレータ分布を基準拡散過程に近づけることである。
正規化にKLの発散に依存する従来のRLHFアプローチとは異なり、新しいスコアベースの発散正規化を導入し、性能が大幅に向上する。
この分散の直接計算は依然として難解であるが、等価でトラクタブルな損失関数を導出することにより、効率よく計算できることを実証する。
注目すべきは、安定拡散 V1.5 が参照拡散モデルであり、DI* は以前の先行モデルよりも大きなマージンで優れていたことである。
参照拡散として 0.6B PixelArt-$\alpha$ モデルを使用する場合、DI* は新たなレコード Aesthetic Score 6.30 と Image Reward 1.31 を単一の生成ステップで達成し、他のモデルのスコアをほぼ倍増する。
また、HPSv2のスコアは28.70に達し、最先端のベンチマークを新たに確立した。
また、DI*はレイアウトを改善し、生成した画像の色を豊かにする。
関連論文リスト
- Diff-Instruct++: Training One-step Text-to-image Generator Model to Align with Human Preferences [0.0]
Diff-Instruct++ (DI++) は,1ステップのテキスト・ツー・イメージ・ジェネレータに対して,高速に収束し,画像データのない人間の嗜好アライメント手法である。
実験セクションでは,Diffusion 1.5 と PixelArt-$alpha$ を基準拡散プロセスとして使用した DI++ を用いて,UNet ベースと DiT ベースのワンステップジェネレータを連携させる。
結果のDiTベースのワンステップテキスト・ツー・イメージモデルは、検証プロンプトデータセット上で、6.19の強い美的スコアと1.24のイメージ・リワードを達成する
論文 参考訳(メタデータ) (2024-10-24T16:17:18Z) - Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。
PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。
PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T07:05:16Z) - Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Plug-and-Play Diffusion Distillation [14.359953671470242]
誘導拡散モデルのための新しい蒸留手法を提案する。
オリジナルのテキスト・ツー・イメージモデルが凍結されている間、外部の軽量ガイドモデルがトレーニングされる。
提案手法は,クラス化なしガイド付きラテント空間拡散モデルの推論をほぼ半減することを示す。
論文 参考訳(メタデータ) (2024-06-04T04:22:47Z) - Score-Guided Diffusion for 3D Human Recovery [10.562998991986102]
Score-Guided Human Mesh Recovery (ScoreHMR)を提案する。
ScoreHMRはモデルフィッティングアプローチを模倣するが、拡散モデルの潜在空間におけるスコアガイダンスによって画像観察との整合が達成される。
提案手法は, (i) 単フレームモデルフィッティング, (ii) 複数視点からの再構成, (iii) ビデオシーケンスで人間を再構成することである。
論文 参考訳(メタデータ) (2024-03-14T17:56:14Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - One-step Diffusion with Distribution Matching Distillation [54.723565605974294]
本稿では,拡散モデルを1ステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。
約KLの発散を最小化することにより,拡散モデルと分布レベルで一致した一段階画像生成装置を強制する。
提案手法は,イメージネット64x64では2.62 FID,ゼロショットCOCO-30kでは11.49 FIDに到達した。
論文 参考訳(メタデータ) (2023-11-30T18:59:20Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Score-Based Generative Modeling through Stochastic Differential
Equations [114.39209003111723]
複素データ分布を雑音を注入することによって既知の事前分布に変換する微分方程式を提案する。
対応する逆時間SDEは、ノイズを緩やかに除去し、先行分布をデータ分布に戻す。
スコアベース生成モデリングの進歩を活用することで、これらのスコアをニューラルネットワークで正確に推定することができる。
スコアベース生成モデルから1024×1024画像の高忠実度生成を初めて示す。
論文 参考訳(メタデータ) (2020-11-26T19:39:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。