論文の概要: Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step
- arxiv url: http://arxiv.org/abs/2406.04314v1
- Date: Thu, 6 Jun 2024 17:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:20:51.352187
- Title: Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step
- Title(参考訳): ステップ対応の優先度最適化:各ステップでパフォーマンスを判断して優先度を調整する
- Authors: Zhanhao Liang, Yuhui Yuan, Shuyang Gu, Bohan Chen, Tiankai Hang, Ji Li, Liang Zheng,
- Abstract要約: テキストと画像の拡散モデルと人間の好みを一致させるためのステップアウェア優先最適化(SPO)を提案する。
SPOは、ステップ認識選好モデルとステップワイズリサンプラーを用いて、各ステップにおける復調性能を独立して評価し、調整する。
安定拡散v1.5およびSDXLによる実験により,SPOは最新の拡散DPOよりも著しく優れていることが示された。
- 参考スコア(独自算出の注目度): 21.590321176541675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Direct Preference Optimization (DPO) has extended its success from aligning large language models (LLMs) to aligning text-to-image diffusion models with human preferences. Unlike most existing DPO methods that assume all diffusion steps share a consistent preference order with the final generated images, we argue that this assumption neglects step-specific denoising performance and that preference labels should be tailored to each step's contribution. To address this limitation, we propose Step-aware Preference Optimization (SPO), a novel post-training approach that independently evaluates and adjusts the denoising performance at each step, using a step-aware preference model and a step-wise resampler to ensure accurate step-aware supervision. Specifically, at each denoising step, we sample a pool of images, find a suitable win-lose pair, and, most importantly, randomly select a single image from the pool to initialize the next denoising step. This step-wise resampler process ensures the next win-lose image pair comes from the same image, making the win-lose comparison independent of the previous step. To assess the preferences at each step, we train a separate step-aware preference model that can be applied to both noisy and clean images. Our experiments with Stable Diffusion v1.5 and SDXL demonstrate that SPO significantly outperforms the latest Diffusion-DPO in aligning generated images with complex, detailed prompts and enhancing aesthetics, while also achieving more than 20x times faster in training efficiency. Code and model: https://rockeycoss.github.io/spo.github.io/
- Abstract(参考訳): 近年、DPO(Direct Preference Optimization)は、大きな言語モデル(LLM)の整合化から、テキストと画像の拡散モデルと人間の嗜好の整合化まで、その成功を拡大している。
全ての拡散ステップが最終生成画像と一貫した選好順序を持つと仮定する既存のDPO法とは異なり、この仮定はステップ固有の演能性能を無視し、各ステップの寄与に合わせて選好ラベルを調整すべきであると主張する。
この制限に対処するため,ステップアウェア優先最適化 (SPO) を提案する。ステップアウェア優先モデルとステップワイズ・リサンプラーを用いて,ステップアウェア適応を独立に評価・調整し,正確なステップアウェア監視を実現する新しいポストトレーニング手法である。
具体的には、各デノイングステップにおいて、画像のプールをサンプリングし、適切なウィンローペアを見つけ、そして最も重要なことは、プールから1つのイメージをランダムに選択して次のデノージングステップを初期化することである。
このステップワイズ再サンプリングプロセスは、次のウィンロー画像対が同じ画像から来ることを保証し、ウィンロー画像対が前のステップに依存しないようにする。
各ステップの嗜好を評価するため、ノイズとクリーンな画像の両方に適用可能なステップ認識選好モデルをトレーニングする。
安定拡散v1.5およびSDXLを用いた実験により、SPOは、より複雑で詳細なプロンプトと美学の強化と、トレーニング効率の20倍以上の速さで、生成した画像の整列において、最新の拡散DPOを著しく上回っていることが示された。
コードとモデル:https://rockeycoss.github.io/spo.github.io/
関連論文リスト
- Dual Caption Preference Optimization for Diffusion Models [51.223275938663235]
本稿では,2つの異なるキャプションを用いて無関係なプロンプトを緩和する手法であるDual Caption Preference Optimization (DCPO)を提案する。
実験の結果,DCPOは画像品質とプロンプトとの関係を著しく改善し,SFT_Chosen,Diffusion-DPO,MaPOを複数の指標で比較した。
論文 参考訳(メタデータ) (2025-02-09T20:34:43Z) - Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization [46.888425016169144]
拡散モデルの優先度最適化は、画像を人間の好みに合わせることを目的としている。
従来の方法では、ビジョンランゲージモデル(VLM)を画素レベルの報酬モデルとして活用し、人間の好みを近似する。
本研究では,拡散モデルが潜伏空間におけるステップレベルの報酬モデリングに本質的に適していることを示す。
本稿では,遅延空間において,ステップレベルの優先度最適化を直接的に行う手法であるLatent Preference Optimization (LPO)を紹介する。
論文 参考訳(メタデータ) (2025-02-03T04:51:28Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。
PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。
PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T07:05:16Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。