論文の概要: PRDP: Proximal Reward Difference Prediction for Large-Scale Reward
Finetuning of Diffusion Models
- arxiv url: http://arxiv.org/abs/2402.08714v1
- Date: Tue, 13 Feb 2024 18:58:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 18:08:44.953551
- Title: PRDP: Proximal Reward Difference Prediction for Large-Scale Reward
Finetuning of Diffusion Models
- Title(参考訳): PRDP:拡散モデルの大規模逆解析のための近位逆差予測
- Authors: Fei Deng, Qifei Wang, Wei Wei, Matthias Grundmann, Tingbo Hou
- Abstract要約: リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。
既存の報酬微調整手法は、大規模なプロンプトデータセットにおける不安定性によって制限される。
拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするためのPRDP(Proximal Reward difference Prediction)を提案する。
- 参考スコア(独自算出の注目度): 14.282998450343635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward finetuning has emerged as a promising approach to aligning foundation
models with downstream objectives. Remarkable success has been achieved in the
language domain by using reinforcement learning (RL) to maximize rewards that
reflect human preference. However, in the vision domain, existing RL-based
reward finetuning methods are limited by their instability in large-scale
training, rendering them incapable of generalizing to complex, unseen prompts.
In this paper, we propose Proximal Reward Difference Prediction (PRDP),
enabling stable black-box reward finetuning for diffusion models for the first
time on large-scale prompt datasets with over 100K prompts. Our key innovation
is the Reward Difference Prediction (RDP) objective that has the same optimal
solution as the RL objective while enjoying better training stability.
Specifically, the RDP objective is a supervised regression objective that tasks
the diffusion model with predicting the reward difference of generated image
pairs from their denoising trajectories. We theoretically prove that the
diffusion model that obtains perfect reward difference prediction is exactly
the maximizer of the RL objective. We further develop an online algorithm with
proximal updates to stably optimize the RDP objective. In experiments, we
demonstrate that PRDP can match the reward maximization ability of
well-established RL-based methods in small-scale training. Furthermore, through
large-scale training on text prompts from the Human Preference Dataset v2 and
the Pick-a-Pic v1 dataset, PRDP achieves superior generation quality on a
diverse set of complex, unseen prompts whereas RL-based methods completely
fail.
- Abstract(参考訳): 報酬の微調整は、基礎モデルを下流の目標に合わせるための有望なアプローチとして現れました。
言語領域で顕著な成功は、人間の好みを反映した報酬を最大化するために強化学習(RL)を使用することで達成されている。
しかしながら、視覚領域では、既存のrlベースの報酬微調整方法は、大規模トレーニングにおける不安定性によって制限され、複雑で目に見えないプロンプトに一般化できない。
本稿では,100K以上のプロンプトを持つ大規模プロンプトデータセットにおいて,拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするPRDPを提案する。
我々の重要なイノベーションは、RLの目標と同じ最適解を持つRDP(Reward Difference Prediction)目標であり、トレーニングの安定性を享受しています。
具体的には、RDPの目的は、生成した画像対の報酬差を予測する拡散モデルを実行する教師付き回帰目標である。
完全報酬差分予測を求める拡散モデルがRL目標の最大値であることを理論的に証明する。
RDPの目的を安定的に最適化するための近位更新を伴うオンラインアルゴリズムをさらに開発する。
実験では,PRDPがRL法を基礎とした小規模学習における報酬最大化能力に適合することを示した。
さらに、Human Preference Dataset v2とPick-a-Pic v1データセットからテキストプロンプトを大規模にトレーニングすることで、PRDPは複雑な未確認プロンプトの多様なセットで優れた生成品質を達成する一方、RLベースのメソッドは完全に失敗する。
関連論文リスト
- Improving Reinforcement Learning from Human Feedback with Efficient
Reward Model Ensemble [71.44669705576263]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model [38.25406127216304]
細管拡散モデルに対するD3PO(Denoising Diffusion Policy Optimization)法について述べる。
D3POは報酬モデルのトレーニングを省略するが、人間のフィードバックデータを用いてトレーニングされた最適報酬モデルとして効果的に機能する。
実験では,目的の相対尺度を人間の嗜好のプロキシとして使用し,地道報酬を用いた手法に匹敵する結果を与える。
論文 参考訳(メタデータ) (2023-11-22T08:42:46Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Data Driven Reward Initialization for Preference based Reinforcement
Learning [20.13307800821161]
選好に基づく強化学習(PbRL)法は、ループ内の人間からの2進フィードバック(HiL)をクエリされた軌道対上で利用し、報酬モデルを学ぶ。
実験のランダムな種に敏感な報酬モデルにおける高い変動性の問題について検討する。
論文 参考訳(メタデータ) (2023-02-17T07:07:07Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。