Fugu-MT 論文翻訳(概要): Residual Reward Models for Preference-based Reinforcement Learning

論文の概要: Residual Reward Models for Preference-based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2507.00611v1
Date: Tue, 01 Jul 2025 09:43:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:22:59.563487
Title: Residual Reward Models for Preference-based Reinforcement Learning
Title（参考訳）: 規範に基づく強化学習のための残留回帰モデル
Authors: Chenyang Cao, Miguel Rogel-García, Mohamed Nabail, Xueqian Wang, Nicholas Rhinehart,
Abstract要約: 優先度に基づく強化学習(PbRL)は、報酬信号の特定が難しい環境で、高性能なポリシーを学習する方法を提供する。 PbRLは報酬モデルでのトレーニングを必要とするため、収束速度が遅い。本稿では,Residual Reward Model (RRM) を用いた事前知識の有効活用手法を提案する。
参考スコア（独自算出の注目度）: 11.797520525358564
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Preference-based Reinforcement Learning (PbRL) provides a way to learn high-performance policies in environments where the reward signal is hard to specify, avoiding heuristic and time-consuming reward design. However, PbRL can suffer from slow convergence speed since it requires training in a reward model. Prior work has proposed learning a reward model from demonstrations and fine-tuning it using preferences. However, when the model is a neural network, using different loss functions for pre-training and fine-tuning can pose challenges to reliable optimization. In this paper, we propose a method to effectively leverage prior knowledge with a Residual Reward Model (RRM). An RRM assumes that the true reward of the environment can be split into a sum of two parts: a prior reward and a learned reward. The prior reward is a term available before training, for example, a user's ``best guess'' reward function, or a reward function learned from inverse reinforcement learning (IRL), and the learned reward is trained with preferences. We introduce state-based and image-based versions of RRM and evaluate them on several tasks in the Meta-World environment suite. Experimental results show that our method substantially improves the performance of a common PbRL method. Our method achieves performance improvements for a variety of different types of prior rewards, including proxy rewards, a reward obtained from IRL, and even a negated version of the proxy reward. We also conduct experiments with a Franka Panda to show that our method leads to superior performance on a real robot. It significantly accelerates policy learning for different tasks, achieving success in fewer steps than the baseline. The videos are presented at https://sunlighted.github.io/RRM-web/.
Abstract（参考訳）: 優先度に基づく強化学習(PbRL)は、報酬信号の特定が難しい環境で、ヒューリスティックで時間を要する報酬設計を回避し、高性能なポリシーを学習する方法を提供する。しかしながら、PbRLは報酬モデルでのトレーニングを必要とするため、収束速度が遅い。以前の研究では、デモンストレーションから報酬モデルを学び、好みを使って微調整することを提案した。しかし、モデルがニューラルネットワークである場合、事前トレーニングや微調整に異なる損失関数を使用すると、信頼性の高い最適化に課題が生じる。本稿では,Residual Reward Model (RRM) を用いて事前知識を効果的に活用する手法を提案する。 RRMは、環境の真の報酬は、事前の報酬と学習された報酬の2つの部分の合計に分けることができると仮定する。事前報酬は、例えば、ユーザの ``best guess'' 報酬関数や、逆強化学習(IRL)から学んだ報酬関数など、トレーニング前に利用できる用語であり、学習された報酬は好みで訓練される。本稿では,RRMの状態ベースおよび画像ベースバージョンを紹介し,メタワールド環境スイートにおける複数のタスクについて評価する。実験結果から,本手法はPbRL法の性能を大幅に向上することが示された。提案手法は,代用報酬,IRLから得られる報奨,さらには代用報酬の無効バージョンなど,様々な種類の先行報酬に対する性能改善を実現する。また、Franka Pandaを用いて実験を行い、本手法が実際のロボットに優れた性能をもたらすことを示す。異なるタスクに対する政策学習を著しく加速し、ベースラインよりも少ないステップで成功を達成します。ビデオはhttps://sunlighted.github.io/RRM-web/.comで公開されている。

関連論文リスト

Reward Reasoning Model [104.39256985858428]
Reward Reasoning Models (RRM) は、最終的な報酬を生成する前に意図的に推論プロセスを実行するように設計されている。自己発展型報酬推論能力を育成する強化学習フレームワークを実装した。特に、RTMはテスト時間計算を適応的に利用して報酬の精度をさらに向上させることができる。
論文参考訳（メタデータ） (2025-05-20T17:58:03Z)
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文参考訳（メタデータ） (2025-02-26T17:19:12Z)
R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文参考訳（メタデータ） (2024-11-13T02:45:21Z)
Bayesian Inverse Reinforcement Learning for Non-Markovian Rewards [7.2933135237680595]
逆強化学習(IRL)は、専門家の行動から報酬関数を推定する問題である。報酬関数は非マルコフ的であり、報酬機械(RM)のような現在の状態以上のものに依存する。本稿では,専門家の行動からRMを直接推定するためのベイズIRLフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-20T04:41:54Z)
To the Max: Reinventing Reward in Reinforcement Learning [1.5498250598583487]
強化学習(RL)では、異なる報酬関数が同じ最適ポリシーを定義することができるが、結果として学習性能は大きく異なる。我々は、エージェントが累積報酬ではなく最大値を最適化するtextitmax-reward RLを紹介した。実験では,Gymnasium-Roboticsの2つの目標到達環境における最大回帰RLアルゴリズムの性能について検討した。
論文参考訳（メタデータ） (2024-02-02T12:29:18Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
DreamSmooth: Improving Model-based Reinforcement Learning via Reward Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2023-11-02T17:57:38Z)
Benchmarking Potential Based Rewards for Learning Humanoid Locomotion [10.406358397515838]
十分に設計されたシェーピング報酬は、学習を著しく速くする可能性がある。理論的には、PBRS(英語版)は最適政策に影響を与えることなく学習プロセスを導くのに役立つ。本稿では,ヒューマノイドロボットのPBRSによる標準形状のベンチマークを行う。
論文参考訳（メタデータ） (2023-07-19T17:12:28Z)
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文参考訳（メタデータ） (2022-10-14T08:31:45Z)
Handling Sparse Rewards in Reinforcement Learning Using Model Predictive Control [9.118706387430883]
強化学習(RL)は近年,様々な分野で大きな成功を収めている。しかし、報酬関数の設計には、エージェントが望ましい振る舞いを学べるように、詳細なドメインの専門知識と面倒な微調整が必要である。本稿では,スパース報酬環境におけるRLエージェントのトレーニング経験源として,モデル予測制御(MPC)を提案する。
論文参考訳（メタデータ） (2022-10-04T11:06:38Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文参考訳（メタデータ） (2022-05-24T23:22:10Z)
Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文参考訳（メタデータ） (2020-11-05T05:34:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。