Fugu-MT 論文翻訳(概要): Diff-Instruct*: Towards Human-Preferred One-step Text-to-image Generative Models

論文の概要: Diff-Instruct*: Towards Human-Preferred One-step Text-to-image Generative Models

arxiv url: http://arxiv.org/abs/2410.20898v2
Date: Tue, 24 Dec 2024 05:22:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-25 16:57:55.802901
Title: Diff-Instruct*: Towards Human-Preferred One-step Text-to-image Generative Models
Title（参考訳）: ディフ・インストラクション*: 人間の優先するワンステップテキスト・ツー・イメージ生成モデルを目指して
Authors: Weijian Luo, Colin Zhang, Debing Zhang, Zhengyang Geng,
Abstract要約: Diff-Instruct* (DI*)は1段階のテキスト・ツー・イメージ生成モデルを構築するための画像データフリーアプローチである。我々は、人間のフィードバックを用いたオンライン強化学習として、人間の好みのアライメントを定めている。正規化にKLの発散に依存する従来のRLHFアプローチとは異なり、新しいスコアベース発散正規化を導入する。
参考スコア（独自算出の注目度）: 8.352666876052616
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we introduce the Diff-Instruct* (DI*), an image data-free approach for building one-step text-to-image generative models that align with human preference while maintaining the ability to generate highly realistic images. We frame human preference alignment as online reinforcement learning using human feedback (RLHF), where the goal is to maximize the reward function while regularizing the generator distribution to remain close to a reference diffusion process. Unlike traditional RLHF approaches, which rely on the KL divergence for regularization, we introduce a novel score-based divergence regularization, which leads to significantly better performances. Although the direct calculation of this preference alignment objective remains intractable, we demonstrate that we can efficiently compute its gradient by deriving an equivalent yet tractable loss function. Remarkably, we used Diff-Instruct* to train a Stable Diffusion-XL-based 1-step model, the 2.6B DI*-SDXL-1step text-to-image model, which can generate images of a resolution of 1024x1024 with only 1 generation step. DI*-SDXL-1step model uses only 1.88% inference time and 29.30% GPU memory cost to outperform 12B FLUX-dev-50step significantly in PickScore, ImageReward, and CLIPScore on Parti prompt benchmark and HPSv2.1 on Human Preference Score benchmark, establishing a new state-of-the-art benchmark of human-preferred 1-step text-to-image generative models. Besides the strong quantitative performances, extensive qualitative comparisons also confirm the advantages of DI* in terms of maintaining diversity, improving image layouts, and enhancing aesthetic colors. We have released our industry-ready model on the homepage: \url{https://github.com/pkulwj1994/diff_instruct_star}.
Abstract（参考訳）: 本稿では,Diff-Instruct*(DI*)について紹介する。Diff-Instruct*(DI*)は1段階のテキスト・ツー・イメージ生成モデルを構築するための画像データ自由な手法である。人選好アライメントを人間フィードバックを用いたオンライン強化学習(RLHF)として設定し、その目的は報酬関数を最大化しつつ、ジェネレータ分布を基準拡散過程に近づけることである。正規化にKLの発散に依存する従来のRLHFアプローチとは異なり、新しいスコアベースの発散正規化を導入し、性能が大幅に向上する。この選好アライメント目的の直接計算は依然として難解であるが, 等価でトラクタブルな損失関数を導出することにより, その勾配を効率的に計算できることを実証する。注目すべきは、Diff-Instruct*を用いて、安定拡散XLベースの1ステップモデルである2.6B DI*-SDXL-1ステップのテキスト・トゥ・イメージモデルをトレーニングし、解像度1024x1024の画像を1世代で生成できることだ。 DI*-SDXL-1stepモデルは12BのFLUX-dev-50stepをPickScore、ImageReward、CLIPScoreで、Human Preference ScoreベンチマークでHPSv2.1で、1.88%の推論時間と29.30%のGPUメモリコストしか使用していない。強力な定量的性能に加えて、多様性の維持、画像レイアウトの改善、美的色の向上といった点において、DI*の利点も広く評価されている。業界対応のモデルをホームページで公開しました: \url{https://github.com/pkulwj1994/diff_instruct_star}。

関連論文リスト

Next-Scale Autoregressive Models are Zero-Shot Single-Image Object View Synthesizers [4.015569252776372]
ArchonViewは,3Dレンダリングデータのみをスクラッチからトレーニングし,2D事前トレーニングを行わないにも関わらず,最先端のメソッドをはるかに上回る方法である。また,従来の手法が失敗する難易度カメラにも頑健な性能を示し,拡散よりも推論速度が数倍高速であることを示す。
論文参考訳（メタデータ） (2025-03-17T17:59:59Z)
Accelerate High-Quality Diffusion Models with Inner Loop Feedback [50.00066451431194]
内ループフィードバック (ILF) は拡散モデルの推論を高速化する新しい手法である。 ILFは、デノナイジングプロセスの将来の機能を予測するために、軽量モジュールをトレーニングする。 ILFは拡散変換器(DiT)とDiTベースのPixArt-alphaとPixArt-sigmaによるテキスト・ツー・画像生成の両方で高い性能を達成している。
論文参考訳（メタデータ） (2025-01-22T18:59:58Z)
When Worse is Better: Navigating the compression-generation tradeoff in visual tokenization [92.17160980120404]
本稿では,第2段階のモデル手法の知識を用いて,第1段階の潜伏者に有用な帰納バイアスを埋め込むCausally Regularized Tokenization(CRT)を紹介する。 CRTは、ステージ1の再構築性能を悪化させるが、ステージ2の生成性能は、トークンをモデル化しやすくすることで向上する。最先端の離散自己回帰画像ネット生成(2.18 FID)と画像あたりのトークンの半分以下とをマッチングする。
論文参考訳（メタデータ） (2024-12-20T20:32:02Z)
Diff-Instruct++: Training One-step Text-to-image Generator Model to Align with Human Preferences [0.0]
Diff-Instruct++ (DI++) は,1ステップのテキスト・ツー・イメージ・ジェネレータに対して,高速に収束し,画像データのない人間の嗜好アライメント手法である。実験セクションでは,Diffusion 1.5 と PixelArt-$alpha$ を基準拡散プロセスとして使用した DI++ を用いて,UNet ベースと DiT ベースのワンステップジェネレータを連携させる。結果のDiTベースのワンステップテキスト・ツー・イメージモデルは、検証プロンプトデータセット上で、6.19の強い美的スコアと1.24のイメージ・リワードを達成する
論文参考訳（メタデータ） (2024-10-24T16:17:18Z)
Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文参考訳（メタデータ） (2024-10-18T22:38:08Z)
Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文参考訳（メタデータ） (2024-10-16T12:13:17Z)
Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。 PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。 PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文参考訳（メタデータ） (2024-10-04T07:05:16Z)
Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文参考訳（メタデータ） (2024-08-15T16:47:59Z)
Plug-and-Play Diffusion Distillation [14.359953671470242]
誘導拡散モデルのための新しい蒸留手法を提案する。オリジナルのテキスト・ツー・イメージモデルが凍結されている間、外部の軽量ガイドモデルがトレーニングされる。提案手法は,クラス化なしガイド付きラテント空間拡散モデルの推論をほぼ半減することを示す。
論文参考訳（メタデータ） (2024-06-04T04:22:47Z)
Deep Reward Supervisions for Tuning Text-to-Image Diffusion Models [42.28905346604424]
Deep Reward Tuning (DRTune) はテキストから画像への拡散モデルの最終的な出力画像を監督するアルゴリズムである。 DRTuneは、特に低レベル制御信号において、他のアルゴリズムよりも一貫して優れている。
論文参考訳（メタデータ） (2024-05-01T15:26:14Z)
You Only Sample Once: Taming One-Step Text-to-Image Synthesis by Self-Cooperative Diffusion GANs [13.133574069588896]
YOSOは、高速でスケーラブルで高忠実なワンステップ画像合成のための新しい生成モデルであり、高いトレーニング安定性とモードカバレッジを持つ。提案手法は,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。特に、YOSO-PixArt-$alpha$は、512の解像度でトレーニングされた1ステップで画像を生成することができる。
論文参考訳（メタデータ） (2024-03-19T17:34:27Z)
Score-Guided Diffusion for 3D Human Recovery [10.562998991986102]
Score-Guided Human Mesh Recovery (ScoreHMR)を提案する。 ScoreHMRはモデルフィッティングアプローチを模倣するが、拡散モデルの潜在空間におけるスコアガイダンスによって画像観察との整合が達成される。提案手法は, (i) 単フレームモデルフィッティング, (ii) 複数視点からの再構成, (iii) ビデオシーケンスで人間を再構成することである。
論文参考訳（メタデータ） (2024-03-14T17:56:14Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
One-step Diffusion with Distribution Matching Distillation [54.723565605974294]
本稿では,拡散モデルを1ステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。約KLの発散を最小化することにより,拡散モデルと分布レベルで一致した一段階画像生成装置を強制する。提案手法は,イメージネット64x64では2.62 FID,ゼロショットCOCO-30kでは11.49 FIDに到達した。
論文参考訳（メタデータ） (2023-11-30T18:59:20Z)
Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。 RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文参考訳（メタデータ） (2023-11-27T09:20:12Z)
ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。 CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文参考訳（メタデータ） (2023-11-23T16:49:06Z)
Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文参考訳（メタデータ） (2023-11-21T15:24:05Z)
Masked Diffusion Models Are Fast Distribution Learners [32.485235866596064]
拡散モデルは、スクラッチからきめ細かい視覚情報を学習するために一般的に訓練されている。まず, 素数分布を学習するためにモデルの事前学習を行うことにより, 強い拡散モデルを訓練するのに十分であることを示す。そして、事前学習されたモデルは、様々な生成タスクに対して効率的に微調整することができる。
論文参考訳（メタデータ） (2023-06-20T08:02:59Z)
DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models [97.31200133440308]
我々は、オンライン強化学習を用いて、テキスト・ツー・イメージモデルを微調整する。拡散モデルに焦点をあて、微調整タスクをRL問題として定義する。我々のアプローチはDPOKと呼ばれ、政策最適化とKL正規化を統合している。
論文参考訳（メタデータ） (2023-05-25T17:35:38Z)
Human Preference Score: Better Aligning Text-to-Image Models with Human Preference [41.270068272447055]
我々は、Stable Foundation Discordチャネルから生成された画像に基づいて、人間の選択のデータセットを収集する。本実験は, 生成モデルに対する現在の評価指標が, 人間の選択とよく相関しないことを示した。本研究では,人間の好みに合わせて安定拡散を適応する簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2023-03-25T10:09:03Z)
On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文参考訳（メタデータ） (2022-10-06T18:03:56Z)
Score-Based Generative Modeling through Stochastic Differential Equations [114.39209003111723]
複素データ分布を雑音を注入することによって既知の事前分布に変換する微分方程式を提案する。対応する逆時間SDEは、ノイズを緩やかに除去し、先行分布をデータ分布に戻す。スコアベース生成モデリングの進歩を活用することで、これらのスコアをニューラルネットワークで正確に推定することができる。スコアベース生成モデルから1024×1024画像の高忠実度生成を初めて示す。
論文参考訳（メタデータ） (2020-11-26T19:39:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。