Fugu-MT 論文翻訳(概要): PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models

論文の概要: PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models

arxiv url: http://arxiv.org/abs/2402.08714v1
Date: Tue, 13 Feb 2024 18:58:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-15 18:08:44.953551
Title: PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models
Title（参考訳）: PRDP:拡散モデルの大規模逆解析のための近位逆差予測
Authors: Fei Deng, Qifei Wang, Wei Wei, Matthias Grundmann, Tingbo Hou
Abstract要約: リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。既存の報酬微調整手法は、大規模なプロンプトデータセットにおける不安定性によって制限される。拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするためのPRDP(Proximal Reward difference Prediction)を提案する。
参考スコア（独自算出の注目度）: 14.282998450343635
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reward finetuning has emerged as a promising approach to aligning foundation models with downstream objectives. Remarkable success has been achieved in the language domain by using reinforcement learning (RL) to maximize rewards that reflect human preference. However, in the vision domain, existing RL-based reward finetuning methods are limited by their instability in large-scale training, rendering them incapable of generalizing to complex, unseen prompts. In this paper, we propose Proximal Reward Difference Prediction (PRDP), enabling stable black-box reward finetuning for diffusion models for the first time on large-scale prompt datasets with over 100K prompts. Our key innovation is the Reward Difference Prediction (RDP) objective that has the same optimal solution as the RL objective while enjoying better training stability. Specifically, the RDP objective is a supervised regression objective that tasks the diffusion model with predicting the reward difference of generated image pairs from their denoising trajectories. We theoretically prove that the diffusion model that obtains perfect reward difference prediction is exactly the maximizer of the RL objective. We further develop an online algorithm with proximal updates to stably optimize the RDP objective. In experiments, we demonstrate that PRDP can match the reward maximization ability of well-established RL-based methods in small-scale training. Furthermore, through large-scale training on text prompts from the Human Preference Dataset v2 and the Pick-a-Pic v1 dataset, PRDP achieves superior generation quality on a diverse set of complex, unseen prompts whereas RL-based methods completely fail.
Abstract（参考訳）: 報酬の微調整は、基礎モデルを下流の目標に合わせるための有望なアプローチとして現れました。言語領域で顕著な成功は、人間の好みを反映した報酬を最大化するために強化学習(RL)を使用することで達成されている。しかしながら、視覚領域では、既存のrlベースの報酬微調整方法は、大規模トレーニングにおける不安定性によって制限され、複雑で目に見えないプロンプトに一般化できない。本稿では,100K以上のプロンプトを持つ大規模プロンプトデータセットにおいて,拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするPRDPを提案する。我々の重要なイノベーションは、RLの目標と同じ最適解を持つRDP(Reward Difference Prediction)目標であり、トレーニングの安定性を享受しています。具体的には、RDPの目的は、生成した画像対の報酬差を予測する拡散モデルを実行する教師付き回帰目標である。完全報酬差分予測を求める拡散モデルがRL目標の最大値であることを理論的に証明する。 RDPの目的を安定的に最適化するための近位更新を伴うオンラインアルゴリズムをさらに開発する。実験では,PRDPがRL法を基礎とした小規模学習における報酬最大化能力に適合することを示した。さらに、Human Preference Dataset v2とPick-a-Pic v1データセットからテキストプロンプトを大規模にトレーニングすることで、PRDPは複雑な未確認プロンプトの多様なセットで優れた生成品質を達成する一方、RLベースのメソッドは完全に失敗する。

関連論文リスト

Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文参考訳（メタデータ） (2025-07-08T23:22:34Z)
Fake it till You Make it: Reward Modeling as Discriminative Prediction [49.31309674007382]
GAN-RMは、手動の嗜好アノテーションと明示的な品質次元工学を排除した効率的な報酬モデリングフレームワークである。提案手法は,少数の対象サンプルを識別し,報酬モデルを訓練する。実験では、GAN-RMが複数の主要なアプリケーションにまたがって有効であることを実証した。
論文参考訳（メタデータ） (2025-06-16T17:59:40Z)
Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [51.22869332661607]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。 RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文参考訳（メタデータ） (2025-05-26T09:54:02Z)
VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文参考訳（メタデータ） (2025-05-21T17:44:37Z)
DPR: Diffusion Preference-based Reward for Offline Reinforcement Learning [30.654668373387214]
拡散選好に基づく報酬獲得法(DPR)を提案する。 DPRは拡散モデルを用いて状態-作用対の選好分布を直接モデル化し、これらの分布から報酬を識別することができる。本手法を既存のオフライン強化学習アルゴリズムに適用し,拡散型報酬獲得手法が従来法およびトランスフォーマー法より優れていることを示す。
論文参考訳（メタデータ） (2025-03-03T03:49:38Z)
Distributionally Robust Reinforcement Learning with Human Feedback [13.509499718691016]
大規模言語モデルを微調整するための分散ロバストなRLHFを提案する。我々のゴールは、プロンプトの分布が著しく異なる場合でも、微調整モデルがその性能を維持することである。我々は,学習した報酬モデルの精度を平均で向上し,推論などのタスクにおいて顕著に向上することを示す。
論文参考訳（メタデータ） (2025-03-01T15:43:39Z)
Reward Fine-Tuning Two-Step Diffusion Models via Learning Differentiable Latent-Space Surrogate Reward [7.574124278327481]
そこで本研究では,学習可能なサロゲート報酬を用いた微調整拡散モデルを提案する。我々の手法であるLaSROはSDXLの潜在空間における代入報酬モデルを学習し、任意の報酬を微分可能モデルに変換する。 LaSROは、報酬目的の異なる超高速画像生成の改善に有効で安定である。
論文参考訳（メタデータ） (2024-11-22T08:00:20Z)
How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文参考訳（メタデータ） (2024-10-18T21:38:21Z)
Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [17.76565371753346]
本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを提案する。鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
論文参考訳（メタデータ） (2024-09-25T22:20:11Z)
Reward-Directed Score-Based Diffusion Models via q-Learning [8.725446812770791]
生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)法を提案する。我々の定式化は、ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルを含まない。
論文参考訳（メタデータ） (2024-09-07T13:55:45Z)
On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference Optimization [25.76847680704863]
RLHFのようにEXRM(Explicit Reward Model)を訓練し、DPO(Direct Preference Optimization)などの手法を用いて、嗜好データから学習した暗黙の報酬を用いて報酬モデルを学習する。本研究は,DPORM と EXRM の双方に対して,推奨回答と拒否回答を区別する精度について検討した。
論文参考訳（メタデータ） (2024-09-05T16:08:19Z)
Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。 XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文参考訳（メタデータ） (2024-05-31T17:39:06Z)
Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文参考訳（メタデータ） (2024-01-30T00:17:37Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文参考訳（メタデータ） (2023-01-27T15:18:54Z)
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文参考訳（メタデータ） (2022-09-18T03:51:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。