論文の概要: DPR: Diffusion Preference-based Reward for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.01143v1
- Date: Mon, 03 Mar 2025 03:49:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:45.166396
- Title: DPR: Diffusion Preference-based Reward for Offline Reinforcement Learning
- Title(参考訳): DPR:オフライン強化学習のための拡散予測に基づくリワード
- Authors: Teng Pang, Bingzheng Wang, Guoqiang Wu, Yilong Yin,
- Abstract要約: 拡散選好に基づく報酬獲得法(DPR)を提案する。
DPRは拡散モデルを用いて状態-作用対の選好分布を直接モデル化し、これらの分布から報酬を識別することができる。
本手法を既存のオフライン強化学習アルゴリズムに適用し,拡散型報酬獲得手法が従来法およびトランスフォーマー法より優れていることを示す。
- 参考スコア(独自算出の注目度): 30.654668373387214
- License:
- Abstract: Offline preference-based reinforcement learning (PbRL) mitigates the need for reward definition, aligning with human preferences via preference-driven reward feedback without interacting with the environment. However, the effectiveness of preference-driven reward functions depends on the modeling ability of the learning model, which current MLP-based and Transformer-based methods may fail to adequately provide. To alleviate the failure of the reward function caused by insufficient modeling, we propose a novel preference-based reward acquisition method: Diffusion Preference-based Reward (DPR). Unlike previous methods using Bradley-Terry models for trajectory preferences, we use diffusion models to directly model preference distributions for state-action pairs, allowing rewards to be discriminatively obtained from these distributions. In addition, considering the particularity of preference data that only know the internal relationships of paired trajectories, we further propose Conditional Diffusion Preference-based Reward (C-DPR), which leverages relative preference information to enhance the construction of the diffusion model. We apply the above methods to existing offline reinforcement learning algorithms and a series of experiment results demonstrate that the diffusion-based reward acquisition approach outperforms previous MLP-based and Transformer-based methods.
- Abstract(参考訳): オフラインの嗜好に基づく強化学習(PbRL)は、環境と相互作用することなく、嗜好駆動の報奨フィードバックを通じて人間の嗜好と整合する報酬定義の必要性を緩和する。
しかし、好み駆動型報酬関数の有効性は、学習モデルのモデリング能力に依存する。
モデリングが不十分な場合の報酬関数の障害を軽減するため,DPR (Diffusion Preference-based Reward) という,新たな嗜好に基づく報酬獲得手法を提案する。
トラジェクトリ選好にブラッドリー・テリーモデルを用いた従来の手法とは異なり、拡散モデルを用いて状態-作用対の選好分布を直接モデル化し、これらの分布から報酬を識別することができる。
さらに,ペア軌跡の内部関係のみを把握した選好データの特異性を考慮し,相対的選好情報を活用して拡散モデルの構築を促進する条件付き拡散選好(C-DPR)を提案する。
本手法を既存のオフライン強化学習アルゴリズムに適用し,拡散型報酬獲得手法が従来のMLP法およびトランスフォーマー法より優れていることを示す。
関連論文リスト
- Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
実験の結果,提案手法は平均的美学のテキスト・ツー・イメージ生成を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Inverse-Q*: Token Level Reinforcement Learning for Aligning Large Language Models Without Preference Data [25.844968873581244]
Inverse-Q*はトークンレベルの強化学習を最適化することで従来のRL手法を超越する革新的なフレームワークである。
この結果から,Inverse-Q*は従来のRLHFアプローチに代わる実用的で堅牢な代替手段であることがわかった。
論文 参考訳(メタデータ) (2024-08-27T08:43:32Z) - Preference Alignment with Flow Matching [23.042382086241364]
優先フローマッチング(PFM)は、好みに基づく強化学習(PbRL)のための新しいフレームワークである
事前訓練されたモデルの任意のクラスへの好みの統合を合理化する。
提案手法の標準PbRL目標との整合性を支持する理論的知見を提供する。
論文 参考訳(メタデータ) (2024-05-30T08:16:22Z) - Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。
我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。
以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。