論文の概要: Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization
- arxiv url: http://arxiv.org/abs/2502.01051v1
- Date: Mon, 03 Feb 2025 04:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:30.889638
- Title: Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization
- Title(参考訳): ステップレベル優先度最適化のための雑音を考慮した遅延リワードモデルとしての拡散モデル
- Authors: Tao Zhang, Cheng Da, Kun Ding, Kun Jin, Yan Li, Tingting Gao, Di Zhang, Shiming Xiang, Chunhong Pan,
- Abstract要約: 拡散モデルの優先度最適化は、画像を人間の好みに合わせることを目的としている。
従来の方法では、ビジョンランゲージモデル(VLM)を画素レベルの報酬モデルとして活用し、人間の好みを近似する。
本研究では,拡散モデルが潜伏空間におけるステップレベルの報酬モデリングに本質的に適していることを示す。
本稿では,遅延空間において,ステップレベルの優先度最適化を直接的に行う手法であるLatent Preference Optimization (LPO)を紹介する。
- 参考スコア(独自算出の注目度): 46.888425016169144
- License:
- Abstract: Preference optimization for diffusion models aims to align them with human preferences for images. Previous methods typically leverage Vision-Language Models (VLMs) as pixel-level reward models to approximate human preferences. However, when used for step-level preference optimization, these models face challenges in handling noisy images of different timesteps and require complex transformations into pixel space. In this work, we demonstrate that diffusion models are inherently well-suited for step-level reward modeling in the latent space, as they can naturally extract features from noisy latent images. Accordingly, we propose the Latent Reward Model (LRM), which repurposes components of diffusion models to predict preferences of latent images at various timesteps. Building on LRM, we introduce Latent Preference Optimization (LPO), a method designed for step-level preference optimization directly in the latent space. Experimental results indicate that LPO not only significantly enhances performance in aligning diffusion models with general, aesthetic, and text-image alignment preferences, but also achieves 2.5-28$\times$ training speedup compared to existing preference optimization methods. Our code will be available at https://github.com/casiatao/LPO.
- Abstract(参考訳): 拡散モデルの優先度最適化は、画像を人間の好みに合わせることを目的としている。
従来の方法では、ビジョンランゲージモデル(VLM)を画素レベルの報酬モデルとして活用し、人間の好みを近似する。
しかし、ステップレベルの優先度最適化に使用する場合、これらのモデルは異なる時間ステップのノイズの多い画像を扱う上で困難に直面し、ピクセル空間への複雑な変換を必要とする。
本研究では,遅延画像から自然に特徴を抽出できるため,拡散モデルが遅延空間におけるステップレベルの報酬モデリングに本質的に適していることを示す。
そこで我々は,拡散モデルの成分を再利用し,様々なタイミングで遅延画像の嗜好を予測するラテント・リワード・モデル(LRM)を提案する。
LRM上に構築したLatent Preference Optimization (LPO) は,遅延空間内でのステップレベルの優先度最適化を実現する手法である。
実験結果から, LPOは拡散モデルと一般, 審美, テキスト画像のアライメントの嗜好との整合性を著しく向上するだけでなく, 既存の選好最適化手法と比較して2.5-28$\times$トレーニングの高速化も達成できることがわかった。
私たちのコードはhttps://github.com/casiatao/LPO.comで公開されます。
関連論文リスト
- Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。
PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。
PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T07:05:16Z) - Aligning Diffusion Models with Noise-Conditioned Perception [42.042822966928576]
拡散モデルは通常、ピクセルまたはVAE空間で最適化されるが、人間の知覚とうまく一致しない。
本稿では,これらの問題に対処するために,拡散モデルのU-Net埋め込み空間における知覚的目的を用いることを提案する。
論文 参考訳(メタデータ) (2024-06-25T15:21:50Z) - Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Soft Preference Optimization: Aligning Language Models to Expert Distributions [40.84391304598521]
SPOは、Large Language Models (LLMs)のような生成モデルと人間の好みを整合させる手法である。
SPOは、選好損失をモデル全体の出力分布全体にわたる正規化項と統合する。
本稿では,SPOの方法論,理論的基礎,および単純さ,計算効率,アライメント精度における比較優位性について紹介する。
論文 参考訳(メタデータ) (2024-04-30T19:48:55Z) - Pixel-wise RL on Diffusion Models: Reinforcement Learning from Rich Feedback [0.0]
遅延拡散モデルは合成画像生成の最先端技術である。
これらのモデルを人間の好みに合わせるためには、強化学習を用いたモデルのトレーニングが不可欠である。
本稿では, 進化の反復的デノベーション特性を考慮に入れたDDPO(denoising diffusion policy optimisation)を導入する。
このアルゴリズムは各ピクセルに対するフィードバックを受け取り、モデルに対してより微妙な報酬を与える。
論文 参考訳(メタデータ) (2024-04-05T18:56:00Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。