論文の概要: Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step
- arxiv url: http://arxiv.org/abs/2406.04314v1
- Date: Thu, 6 Jun 2024 17:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:20:51.352187
- Title: Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step
- Title(参考訳): ステップ対応の優先度最適化:各ステップでパフォーマンスを判断して優先度を調整する
- Authors: Zhanhao Liang, Yuhui Yuan, Shuyang Gu, Bohan Chen, Tiankai Hang, Ji Li, Liang Zheng,
- Abstract要約: テキストと画像の拡散モデルと人間の好みを一致させるためのステップアウェア優先最適化(SPO)を提案する。
SPOは、ステップ認識選好モデルとステップワイズリサンプラーを用いて、各ステップにおける復調性能を独立して評価し、調整する。
安定拡散v1.5およびSDXLによる実験により,SPOは最新の拡散DPOよりも著しく優れていることが示された。
- 参考スコア(独自算出の注目度): 21.590321176541675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Direct Preference Optimization (DPO) has extended its success from aligning large language models (LLMs) to aligning text-to-image diffusion models with human preferences. Unlike most existing DPO methods that assume all diffusion steps share a consistent preference order with the final generated images, we argue that this assumption neglects step-specific denoising performance and that preference labels should be tailored to each step's contribution. To address this limitation, we propose Step-aware Preference Optimization (SPO), a novel post-training approach that independently evaluates and adjusts the denoising performance at each step, using a step-aware preference model and a step-wise resampler to ensure accurate step-aware supervision. Specifically, at each denoising step, we sample a pool of images, find a suitable win-lose pair, and, most importantly, randomly select a single image from the pool to initialize the next denoising step. This step-wise resampler process ensures the next win-lose image pair comes from the same image, making the win-lose comparison independent of the previous step. To assess the preferences at each step, we train a separate step-aware preference model that can be applied to both noisy and clean images. Our experiments with Stable Diffusion v1.5 and SDXL demonstrate that SPO significantly outperforms the latest Diffusion-DPO in aligning generated images with complex, detailed prompts and enhancing aesthetics, while also achieving more than 20x times faster in training efficiency. Code and model: https://rockeycoss.github.io/spo.github.io/
- Abstract(参考訳): 近年、DPO(Direct Preference Optimization)は、大きな言語モデル(LLM)の整合化から、テキストと画像の拡散モデルと人間の嗜好の整合化まで、その成功を拡大している。
全ての拡散ステップが最終生成画像と一貫した選好順序を持つと仮定する既存のDPO法とは異なり、この仮定はステップ固有の演能性能を無視し、各ステップの寄与に合わせて選好ラベルを調整すべきであると主張する。
この制限に対処するため,ステップアウェア優先最適化 (SPO) を提案する。ステップアウェア優先モデルとステップワイズ・リサンプラーを用いて,ステップアウェア適応を独立に評価・調整し,正確なステップアウェア監視を実現する新しいポストトレーニング手法である。
具体的には、各デノイングステップにおいて、画像のプールをサンプリングし、適切なウィンローペアを見つけ、そして最も重要なことは、プールから1つのイメージをランダムに選択して次のデノージングステップを初期化することである。
このステップワイズ再サンプリングプロセスは、次のウィンロー画像対が同じ画像から来ることを保証し、ウィンロー画像対が前のステップに依存しないようにする。
各ステップの嗜好を評価するため、ノイズとクリーンな画像の両方に適用可能なステップ認識選好モデルをトレーニングする。
安定拡散v1.5およびSDXLを用いた実験により、SPOは、より複雑で詳細なプロンプトと美学の強化と、トレーニング効率の20倍以上の速さで、生成した画像の整列において、最新の拡散DPOを著しく上回っていることが示された。
コードとモデル:https://rockeycoss.github.io/spo.github.io/
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Aligning Few-Step Diffusion Models with Dense Reward Difference Learning [81.85515625591884]
Stepwise Diffusion Policy Optimization (SDPO) は、数ステップの拡散モデルに適したアライメント手法である。
SDPOは、すべての中間ステップに密集した報酬フィードバックを組み込んで、すべてのデノナイジングステップを一貫したアライメントを確保する。
SDPOは、様々なステップ構成にまたがる報酬ベースのアライメントにおいて、従来手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-18T16:57:41Z) - Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。
MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文 参考訳(メタデータ) (2024-10-23T07:56:48Z) - FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion Models [10.969811500333755]
本稿では,FIND(Fincent-tuning Initial Noise Distribution)フレームワークのポリシー最適化について紹介する。
提案手法はSOTA法よりも10倍高速である。
論文 参考訳(メタデータ) (2024-07-28T10:07:55Z) - Beta Sampling is All You Need: Efficient Image Generation Strategy for Diffusion Models using Stepwise Spectral Analysis [22.02829139522153]
拡散過程の画像スペクトル解析に基づく効率的な時間ステップサンプリング法を提案する。
従来の均一分布に基づく時間ステップサンプリングの代わりに,ベータ分布のようなサンプリング手法を導入する。
我々の仮説では、あるステップは画像の内容に大きな変化を示すが、他のステップは最小限に寄与する。
論文 参考訳(メタデータ) (2024-07-16T20:53:06Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - AutoDiffusion: Training-Free Optimization of Time Steps and
Architectures for Automated Diffusion Model Acceleration [57.846038404893626]
本稿では,拡散モデルに対する効率的な画像生成を実現するために,最適な時間ステップシーケンスと圧縮モデルアーキテクチャを統一されたフレームワークで探索することを提案する。
実験結果から,ImageNet 64$times$64の17.86 FIDスコアとDDIMの138.66の4ステップのFIDスコアを用いると,優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-19T08:57:24Z) - Score Priors Guided Deep Variational Inference for Unsupervised
Real-World Single Image Denoising [14.486289176696438]
本稿では,実世界の実演のためのスコア先行誘導深部変分推論,すなわちScoreDVIを提案する。
我々は、実世界の雑音をモデル化するために、非i.i.d$ガウス混合モデルと変分ノイズ後部モデルを利用する。
提案手法は,他の単一画像ベースの実世界のデノベーション手法よりも優れ,データセットベースの教師なし手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2023-08-09T03:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。