論文の概要: Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model
- arxiv url: http://arxiv.org/abs/2311.13231v3
- Date: Sat, 23 Mar 2024 05:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 02:25:46.264280
- Title: Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model
- Title(参考訳): 逆流モデルのない微動拡散モデルへの人間のフィードバックの利用
- Authors: Kai Yang, Jian Tao, Jiafei Lyu, Chunjiang Ge, Jiaxin Chen, Qimai Li, Weihan Shen, Xiaolong Zhu, Xiu Li,
- Abstract要約: 細管拡散モデルに対するD3PO(Denoising Diffusion Policy Optimization)法について述べる。
D3POは報酬モデルのトレーニングを省略するが、人間のフィードバックデータを用いてトレーニングされた最適報酬モデルとして効果的に機能する。
実験では,目的の相対尺度を人間の嗜好のプロキシとして使用し,地道報酬を用いた手法に匹敵する結果を与える。
- 参考スコア(独自算出の注目度): 38.25406127216304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using reinforcement learning with human feedback (RLHF) has shown significant promise in fine-tuning diffusion models. Previous methods start by training a reward model that aligns with human preferences, then leverage RL techniques to fine-tune the underlying models. However, crafting an efficient reward model demands extensive datasets, optimal architecture, and manual hyperparameter tuning, making the process both time and cost-intensive. The direct preference optimization (DPO) method, effective in fine-tuning large language models, eliminates the necessity for a reward model. However, the extensive GPU memory requirement of the diffusion model's denoising process hinders the direct application of the DPO method. To address this issue, we introduce the Direct Preference for Denoising Diffusion Policy Optimization (D3PO) method to directly fine-tune diffusion models. The theoretical analysis demonstrates that although D3PO omits training a reward model, it effectively functions as the optimal reward model trained using human feedback data to guide the learning process. This approach requires no training of a reward model, proving to be more direct, cost-effective, and minimizing computational overhead. In experiments, our method uses the relative scale of objectives as a proxy for human preference, delivering comparable results to methods using ground-truth rewards. Moreover, D3PO demonstrates the ability to reduce image distortion rates and generate safer images, overcoming challenges lacking robust reward models. Our code is publicly available at https://github.com/yk7333/D3PO.
- Abstract(参考訳): 人間のフィードバックを用いた強化学習(RLHF)は、微調整拡散モデルにおいて大きな可能性を示している。
これまでの方法は、人間の好みに合わせて報酬モデルをトレーニングし、RL技術を利用して基礎となるモデルを微調整することから始まる。
しかし、効率的な報酬モデルを構築するには、広範なデータセット、最適なアーキテクチャ、手動のハイパーパラメータチューニングが必要であり、プロセスは時間とコストの両方に集約される。
大規模言語モデルの微調整に有効な直接選好最適化(DPO)法は,報奨モデルの必要性を排除している。
しかし,拡散モデルのデノナイジングプロセスにおけるGPUメモリの広範な要求は,DPO法の直接適用を妨げる。
この問題に対処するため、直列拡散モデルにD3PO(Denoising Diffusion Policy Optimization)法を導入する。
理論的解析により,D3POは報酬モデルのトレーニングを省略するが,人間のフィードバックデータを用いて学習過程をガイドする最適な報酬モデルとして効果的に機能することが示された。
このアプローチでは、報酬モデルのトレーニングを必要とせず、より直接的でコスト効率が良く、計算オーバーヘッドを最小限に抑えることが証明される。
実験では,目的の相対尺度を人間の嗜好の代名詞として使用し,地道報酬を用いた手法に匹敵する結果を与える。
さらに、D3POは画像歪み率を低減し、より安全な画像を生成する能力を示し、ロバストな報酬モデルに欠ける課題を克服する。
私たちのコードはhttps://github.com/yk7333/D3POで公開されています。
関連論文リスト
- Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。