論文の概要: Fusing Rewards and Preferences in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.11363v1
- Date: Fri, 15 Aug 2025 09:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.844317
- Title: Fusing Rewards and Preferences in Reinforcement Learning
- Title(参考訳): 強化学習におけるFusing RewardsとPreferences
- Authors: Sadegh Khorasani, Saber Salehkaleybar, Negar Kiyavash, Matthias Grossglauser,
- Abstract要約: 本稿では、個別の報酬とペアの好みを融合させる強化学習アルゴリズムであるDual-Feedback Actor(DFA)を提案する。
DFAはポリシーのログ確率を直接使用して好みの確率をモデル化し、別の報酬モデリングのステップを避ける。
シミュレーションの結果,生成した嗜好に基づいて訓練したDFAは,ソフトアクター・クリティカル(SAC)ポリシーを超えていることがわかった。
- 参考スコア(独自算出の注目度): 24.93050534953955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Dual-Feedback Actor (DFA), a reinforcement learning algorithm that fuses both individual rewards and pairwise preferences (if available) into a single update rule. DFA uses the policy's log-probabilities directly to model the preference probability, avoiding a separate reward-modeling step. Preferences can be provided by human-annotators (at state-level or trajectory-level) or be synthesized online from Q-values stored in an off-policy replay buffer. Under a Bradley-Terry model, we prove that minimizing DFA's preference loss recovers the entropy-regularized Soft Actor-Critic (SAC) policy. Our simulation results show that DFA trained on generated preferences matches or exceeds SAC on six control environments and demonstrates a more stable training process. With only a semi-synthetic preference dataset under Bradley-Terry model, our algorithm outperforms reward-modeling reinforcement learning from human feedback (RLHF) baselines in a stochastic GridWorld and approaches the performance of an oracle with true rewards.
- Abstract(参考訳): DFA(Dual-Feedback Actor, Dual-Feedback Actor)は、個々の報酬とペアの選好の両方を単一の更新ルールに融合させる強化学習アルゴリズムである。
DFAはポリシーのログ確率を直接使用して好みの確率をモデル化し、別の報酬モデリングのステップを避ける。
推奨は、人間アノテーション(状態レベルまたは軌道レベル)によって提供されるか、あるいは、外部のリプレイバッファに格納されたQ値からオンラインに合成される。
ブラッドリー・テリーモデルの下では, DFAの選好損失を最小限に抑えることで, エントロピー規則化されたソフトアクター・クリティカル (SAC) ポリシーが回復することを示す。
シミュレーションの結果, DFA は6つの制御環境において SAC を上回り, より安定した学習プロセスを示すことがわかった。
Bradley-Terryモデルに基づく半合成選好データセットのみを用いて,我々のアルゴリズムは,確率的グリッドワールドにおける人間フィードバック(RLHF)ベースラインからの報酬モデル強化学習より優れ,真の報酬を伴うオラクルのパフォーマンスにアプローチする。
関連論文リスト
- Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling [27.11560841914813]
本稿では,自己改善型報酬モデルであるREFORMを紹介する。
我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
論文 参考訳(メタデータ) (2025-07-08T21:56:33Z) - Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment [44.74709190788796]
十分に調整された報酬ベースのパイプラインが最も堅牢なままだ。
textbfDR-IRLは逆強化学習によって動的報酬を調整する。
textbfGRPO-Sは、タスクの難易度に最適化中の報酬をスケールする。
論文 参考訳(メタデータ) (2025-03-23T16:40:29Z) - Active RLHF via Best Policy Learning from Trajectory Preference Feedback [15.799929216215672]
嗜好型強化学習(PbRL)における最良政策識別の問題に対処する。
本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。
論文 参考訳(メタデータ) (2025-01-31T03:55:10Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。
我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。
以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。