論文の概要: PRDP: Proximal Reward Difference Prediction for Large-Scale Reward
Finetuning of Diffusion Models
- arxiv url: http://arxiv.org/abs/2402.08714v1
- Date: Tue, 13 Feb 2024 18:58:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 18:08:44.953551
- Title: PRDP: Proximal Reward Difference Prediction for Large-Scale Reward
Finetuning of Diffusion Models
- Title(参考訳): PRDP:拡散モデルの大規模逆解析のための近位逆差予測
- Authors: Fei Deng, Qifei Wang, Wei Wei, Matthias Grundmann, Tingbo Hou
- Abstract要約: リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。
既存の報酬微調整手法は、大規模なプロンプトデータセットにおける不安定性によって制限される。
拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするためのPRDP(Proximal Reward difference Prediction)を提案する。
- 参考スコア(独自算出の注目度): 14.282998450343635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward finetuning has emerged as a promising approach to aligning foundation
models with downstream objectives. Remarkable success has been achieved in the
language domain by using reinforcement learning (RL) to maximize rewards that
reflect human preference. However, in the vision domain, existing RL-based
reward finetuning methods are limited by their instability in large-scale
training, rendering them incapable of generalizing to complex, unseen prompts.
In this paper, we propose Proximal Reward Difference Prediction (PRDP),
enabling stable black-box reward finetuning for diffusion models for the first
time on large-scale prompt datasets with over 100K prompts. Our key innovation
is the Reward Difference Prediction (RDP) objective that has the same optimal
solution as the RL objective while enjoying better training stability.
Specifically, the RDP objective is a supervised regression objective that tasks
the diffusion model with predicting the reward difference of generated image
pairs from their denoising trajectories. We theoretically prove that the
diffusion model that obtains perfect reward difference prediction is exactly
the maximizer of the RL objective. We further develop an online algorithm with
proximal updates to stably optimize the RDP objective. In experiments, we
demonstrate that PRDP can match the reward maximization ability of
well-established RL-based methods in small-scale training. Furthermore, through
large-scale training on text prompts from the Human Preference Dataset v2 and
the Pick-a-Pic v1 dataset, PRDP achieves superior generation quality on a
diverse set of complex, unseen prompts whereas RL-based methods completely
fail.
- Abstract(参考訳): 報酬の微調整は、基礎モデルを下流の目標に合わせるための有望なアプローチとして現れました。
言語領域で顕著な成功は、人間の好みを反映した報酬を最大化するために強化学習(RL)を使用することで達成されている。
しかしながら、視覚領域では、既存のrlベースの報酬微調整方法は、大規模トレーニングにおける不安定性によって制限され、複雑で目に見えないプロンプトに一般化できない。
本稿では,100K以上のプロンプトを持つ大規模プロンプトデータセットにおいて,拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするPRDPを提案する。
我々の重要なイノベーションは、RLの目標と同じ最適解を持つRDP(Reward Difference Prediction)目標であり、トレーニングの安定性を享受しています。
具体的には、RDPの目的は、生成した画像対の報酬差を予測する拡散モデルを実行する教師付き回帰目標である。
完全報酬差分予測を求める拡散モデルがRL目標の最大値であることを理論的に証明する。
RDPの目的を安定的に最適化するための近位更新を伴うオンラインアルゴリズムをさらに開発する。
実験では,PRDPがRL法を基礎とした小規模学習における報酬最大化能力に適合することを示した。
さらに、Human Preference Dataset v2とPick-a-Pic v1データセットからテキストプロンプトを大規模にトレーニングすることで、PRDPは複雑な未確認プロンプトの多様なセットで優れた生成品質を達成する一方、RLベースのメソッドは完全に失敗する。
関連論文リスト
- Reward Fine-Tuning Two-Step Diffusion Models via Learning Differentiable Latent-Space Surrogate Reward [7.574124278327481]
そこで本研究では,学習可能なサロゲート報酬を用いた微調整拡散モデルを提案する。
我々の手法であるLaSROはSDXLの潜在空間における代入報酬モデルを学習し、任意の報酬を微分可能モデルに変換する。
LaSROは、報酬目的の異なる超高速画像生成の改善に有効で安定である。
論文 参考訳(メタデータ) (2024-11-22T08:00:20Z) - How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。
我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。
大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文 参考訳(メタデータ) (2024-10-18T21:38:21Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human
Feedback without Reward Inference [17.76565371753346]
本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを提案する。
鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。
以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Reward-Directed Score-Based Diffusion Models via q-Learning [8.725446812770791]
生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)法を提案する。
我々の定式化は、ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルを含まない。
論文 参考訳(メタデータ) (2024-09-07T13:55:45Z) - On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference Optimization [25.76847680704863]
RLHFのようにEXRM(Explicit Reward Model)を訓練し、DPO(Direct Preference Optimization)などの手法を用いて、嗜好データから学習した暗黙の報酬を用いて報酬モデルを学習する。
本研究は,DPORM と EXRM の双方に対して,推奨回答と拒否回答を区別する精度について検討した。
論文 参考訳(メタデータ) (2024-09-05T16:08:19Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。