Fugu-MT 論文翻訳(概要): Reward Models in Deep Reinforcement Learning: A Survey

論文の概要: Reward Models in Deep Reinforcement Learning: A Survey

arxiv url: http://arxiv.org/abs/2506.15421v1
Date: Wed, 18 Jun 2025 12:46:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-19 19:35:51.66398
Title: Reward Models in Deep Reinforcement Learning: A Survey
Title（参考訳）: 深層強化学習におけるリワードモデル
Authors: Rui Yu, Shenghua Wan, Yucen Wang, Chen-Xiao Gao, Le Gan, Zongzhang Zhang, De-Chuan Zhan,
Abstract要約: 強化学習(RL)では、エージェントは環境と継続的に対話し、フィードバックを使って行動を改善する。政策最適化を導くため、望ましい目的のプロキシとして報酬モデルが導入される。本稿では,深いRL文学における報酬モデリング手法の総合的なレビューを行う。
参考スコア（独自算出の注目度）: 41.9226347082816
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In reinforcement learning (RL), agents continually interact with the environment and use the feedback to refine their behavior. To guide policy optimization, reward models are introduced as proxies of the desired objectives, such that when the agent maximizes the accumulated reward, it also fulfills the task designer's intentions. Recently, significant attention from both academic and industrial researchers has focused on developing reward models that not only align closely with the true objectives but also facilitate policy optimization. In this survey, we provide a comprehensive review of reward modeling techniques within the deep RL literature. We begin by outlining the background and preliminaries in reward modeling. Next, we present an overview of recent reward modeling approaches, categorizing them based on the source, the mechanism, and the learning paradigm. Building on this understanding, we discuss various applications of these reward modeling techniques and review methods for evaluating reward models. Finally, we conclude by highlighting promising research directions in reward modeling. Altogether, this survey includes both established and emerging methods, filling the vacancy of a systematic review of reward models in current literature.
Abstract（参考訳）: 強化学習(RL)では、エージェントは環境と継続的に対話し、フィードバックを使って行動を改善する。政策最適化を導くため、目的のプロキシとして報酬モデルを導入し、エージェントが蓄積した報酬を最大化すると、タスクデザイナの意図も満たす。近年,学術・工業両研究者の注目は,真の目的と密接に整合するだけでなく,政策最適化を促進する報酬モデルの開発に焦点が当てられている。本稿では,RL文学における報酬モデリング手法の総合的なレビューを行う。まず、報酬モデリングの背景と前提について概説する。次に、近年の報酬モデリング手法の概要を述べ、ソース、メカニズム、学習パラダイムに基づいてそれらを分類する。この理解に基づいて、報酬モデルの評価のための報酬モデリング手法とレビュー手法の様々な応用について論じる。最後に、報酬モデリングにおける有望な研究の方向性を強調して結論を下す。この調査には、確立された手法と新しい手法の両方が含まれており、現在の文献における報酬モデルに関する体系的なレビューの空白を埋めている。

関連論文リスト

Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文参考訳（メタデータ） (2025-07-02T05:10:29Z)
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文参考訳（メタデータ） (2025-02-26T17:19:12Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文参考訳（メタデータ） (2024-02-06T04:06:06Z)
Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文参考訳（メタデータ） (2023-11-10T01:35:51Z)
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文参考訳（メタデータ） (2022-09-18T03:51:58Z)
On the model-based stochastic value gradient for continuous reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文参考訳（メタデータ） (2020-08-28T17:58:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。