論文の概要: Reward Models in Deep Reinforcement Learning: A Survey
- arxiv url: http://arxiv.org/abs/2506.15421v1
- Date: Wed, 18 Jun 2025 12:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.66398
- Title: Reward Models in Deep Reinforcement Learning: A Survey
- Title(参考訳): 深層強化学習におけるリワードモデル
- Authors: Rui Yu, Shenghua Wan, Yucen Wang, Chen-Xiao Gao, Le Gan, Zongzhang Zhang, De-Chuan Zhan,
- Abstract要約: 強化学習(RL)では、エージェントは環境と継続的に対話し、フィードバックを使って行動を改善する。
政策最適化を導くため、望ましい目的のプロキシとして報酬モデルが導入される。
本稿では,深いRL文学における報酬モデリング手法の総合的なレビューを行う。
- 参考スコア(独自算出の注目度): 41.9226347082816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning (RL), agents continually interact with the environment and use the feedback to refine their behavior. To guide policy optimization, reward models are introduced as proxies of the desired objectives, such that when the agent maximizes the accumulated reward, it also fulfills the task designer's intentions. Recently, significant attention from both academic and industrial researchers has focused on developing reward models that not only align closely with the true objectives but also facilitate policy optimization. In this survey, we provide a comprehensive review of reward modeling techniques within the deep RL literature. We begin by outlining the background and preliminaries in reward modeling. Next, we present an overview of recent reward modeling approaches, categorizing them based on the source, the mechanism, and the learning paradigm. Building on this understanding, we discuss various applications of these reward modeling techniques and review methods for evaluating reward models. Finally, we conclude by highlighting promising research directions in reward modeling. Altogether, this survey includes both established and emerging methods, filling the vacancy of a systematic review of reward models in current literature.
- Abstract(参考訳): 強化学習(RL)では、エージェントは環境と継続的に対話し、フィードバックを使って行動を改善する。
政策最適化を導くため、目的のプロキシとして報酬モデルを導入し、エージェントが蓄積した報酬を最大化すると、タスクデザイナの意図も満たす。
近年,学術・工業両研究者の注目は,真の目的と密接に整合するだけでなく,政策最適化を促進する報酬モデルの開発に焦点が当てられている。
本稿では,RL文学における報酬モデリング手法の総合的なレビューを行う。
まず、報酬モデリングの背景と前提について概説する。
次に、近年の報酬モデリング手法の概要を述べ、ソース、メカニズム、学習パラダイムに基づいてそれらを分類する。
この理解に基づいて、報酬モデルの評価のための報酬モデリング手法とレビュー手法の様々な応用について論じる。
最後に、報酬モデリングにおける有望な研究の方向性を強調して結論を下す。
この調査には、確立された手法と新しい手法の両方が含まれており、現在の文献における報酬モデルに関する体系的なレビューの空白を埋めている。
関連論文リスト
- RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。
以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。
また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文 参考訳(メタデータ) (2023-11-10T01:35:51Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。