論文の概要: Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization
- arxiv url: http://arxiv.org/abs/2502.01051v3
- Date: Tue, 20 May 2025 13:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.74955
- Title: Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization
- Title(参考訳): ステップレベル優先度最適化のための雑音を考慮した遅延リワードモデルとしての拡散モデル
- Authors: Tao Zhang, Cheng Da, Kun Ding, Huan Yang, Kun Jin, Yan Li, Tingting Gao, Di Zhang, Shiming Xiang, Chunhong Pan,
- Abstract要約: 拡散モデルの優先度最適化は、画像を人間の好みに合わせることを目的としている。
事前学習した拡散モデルは,ノイズのある潜在空間におけるステップレベルの報酬モデルに自然に適していることを示す。
雑音の多い遅延空間で直接実行されるステップレベルの優先度最適化手法であるLatent Preference Optimization (LPO)を導入する。
- 参考スコア(独自算出の注目度): 49.302188710680866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference optimization for diffusion models aims to align them with human preferences for images. Previous methods typically use Vision-Language Models (VLMs) as pixel-level reward models to approximate human preferences. However, when used for step-level preference optimization, these models face challenges in handling noisy images of different timesteps and require complex transformations into pixel space. In this work, we show that pre-trained diffusion models are naturally suited for step-level reward modeling in the noisy latent space, as they are explicitly designed to process latent images at various noise levels. Accordingly, we propose the Latent Reward Model (LRM), which repurposes components of the diffusion model to predict preferences of latent images at arbitrary timesteps. Building on LRM, we introduce Latent Preference Optimization (LPO), a step-level preference optimization method conducted directly in the noisy latent space. Experimental results indicate that LPO significantly improves the model's alignment with general, aesthetic, and text-image alignment preferences, while achieving a 2.5-28x training speedup over existing preference optimization methods. Our code and models are available at https://github.com/Kwai-Kolors/LPO.
- Abstract(参考訳): 拡散モデルの優先度最適化は、画像を人間の好みに合わせることを目的としている。
従来の方法では、人間の好みを近似するピクセルレベルの報酬モデルとしてビジョンランゲージモデル(VLM)が一般的であった。
しかし、ステップレベルの優先度最適化に使用する場合、これらのモデルは異なる時間ステップのノイズの多い画像を扱う上で困難に直面し、ピクセル空間への複雑な変換を必要とする。
本研究では,様々な雑音レベルにおいて遅延画像を処理するように設計されているため,事前学習した拡散モデルは,雑音の多い潜在空間におけるステップレベルの報酬モデルに自然に適していることを示す。
そこで我々は,任意のタイミングで遅延画像の嗜好を予測するために拡散モデルの成分を再利用した遅延リワードモデル(LRM)を提案する。
LRM上に構築したLatent Preference Optimization (LPO) は,ノイズの多い遅延空間で直接実行されるステップレベルの優先度最適化手法である。
実験結果から,LPOは従来の嗜好最適化手法よりも2.5-28倍のトレーニング高速化を実現しつつ,一般,審美,テキスト画像のアライメントの嗜好との整合性を大幅に向上させることが示された。
私たちのコードとモデルはhttps://github.com/Kwai-Kolors/LPO.comで公開されています。
関連論文リスト
- InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.823734370183482]
拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。
提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。
実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2025-03-24T08:58:49Z) - DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models [50.32663816994459]
拡散型優先度最適化(Diffusion-styled Preference Optimization: モデル)は、LLMを人間と整合させるための効率的でポリシーに依存しないソリューションを提供する。
modelavoidはトークンレベルの生成に関連する時間遅延をモデル化する。
AlpacaEval 2, MT-bench, HH-RLHFの実験により, 種々の環境におけるアライメント性能が良好であることが示された。
論文 参考訳(メタデータ) (2025-03-06T09:21:54Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。
PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。
PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T07:05:16Z) - Aligning Diffusion Models with Noise-Conditioned Perception [42.042822966928576]
拡散モデルは通常、ピクセルまたはVAE空間で最適化されるが、人間の知覚とうまく一致しない。
本稿では,これらの問題に対処するために,拡散モデルのU-Net埋め込み空間における知覚的目的を用いることを提案する。
論文 参考訳(メタデータ) (2024-06-25T15:21:50Z) - Pixel-wise RL on Diffusion Models: Reinforcement Learning from Rich Feedback [0.0]
遅延拡散モデルは合成画像生成の最先端技術である。
これらのモデルを人間の好みに合わせるためには、強化学習を用いたモデルのトレーニングが不可欠である。
本稿では, 進化の反復的デノベーション特性を考慮に入れたDDPO(denoising diffusion policy optimisation)を導入する。
このアルゴリズムは各ピクセルに対するフィードバックを受け取り、モデルに対してより微妙な報酬を与える。
論文 参考訳(メタデータ) (2024-04-05T18:56:00Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。