論文の概要: Which Rewards Matter? Reward Selection for Reinforcement Learning under Limited Feedback
- arxiv url: http://arxiv.org/abs/2510.00144v1
- Date: Tue, 30 Sep 2025 18:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.193287
- Title: Which Rewards Matter? Reward Selection for Reinforcement Learning under Limited Feedback
- Title(参考訳): 逆戻りとは何か : 限定的フィードバック下での強化学習のための逆戻り選択
- Authors: Shreyas Chaudhari, Renhao Zhang, Philip S. Thomas, Bruno Castro da Silva,
- Abstract要約: 限られたフィードバックから強化学習における報酬選択の問題について検討する。
報酬の臨界部分集合は、最適な軌道に沿ってエージェントを導くものである。
有効選択法は, 完全監督よりも報酬ラベルが著しく少ない, 最適に近い政策を導出することがわかった。
- 参考スコア(独自算出の注目度): 16.699326038073856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability of reinforcement learning algorithms to learn effective policies is determined by the rewards available during training. However, for practical problems, obtaining large quantities of reward labels is often infeasible due to computational or financial constraints, particularly when relying on human feedback. When reinforcement learning must proceed with limited feedback -- only a fraction of samples get rewards labeled -- a fundamental question arises: which samples should be labeled to maximize policy performance? We formalize this problem of reward selection for reinforcement learning from limited feedback (RLLF), introducing a new problem formulation that facilitates the study of strategies for selecting impactful rewards. Two types of selection strategies are investigated: (i) heuristics that rely on reward-free information such as state visitation and partial value functions, and (ii) strategies pre-trained using auxiliary evaluative feedback. We find that critical subsets of rewards are those that (1) guide the agent along optimal trajectories, and (2) support recovery toward near-optimal behavior after deviations. Effective selection methods yield near-optimal policies with significantly fewer reward labels than full supervision, establishing reward selection as a powerful paradigm for scaling reinforcement learning in feedback-limited settings.
- Abstract(参考訳): 効果的なポリシーを学ぶための強化学習アルゴリズムの能力は、トレーニング中に利用できる報酬によって決定される。
しかし、実際的な問題では、特に人間のフィードバックに頼っている場合、計算的あるいは金銭的制約のため、大量の報酬ラベルを取得することは不可能であることが多い。
政策のパフォーマンスを最大化するためにどのサンプルにラベルを付けるべきかという根本的な疑問が浮かび上がっています。
本稿では、リミテッドフィードバック(RLLF)からの強化学習における報酬選択の問題を定式化し、影響のある報酬を選択するための戦略の研究を容易にする新しい問題定式化を導入する。
選択戦略には2つの種類がある。
一 国家訪問、部分価値関数等の無報酬情報に依存するヒューリスティックス
二 補助評価フィードバックを用いて事前訓練した戦略。
報酬の臨界部分集合は,(1)最適な軌道に沿ってエージェントを誘導し,(2)逸脱後の準最適行動に対する回復を支援するものである。
効果的な選択手法は、報酬ラベルが完全な監督よりもはるかに少ないほぼ最適のポリシーを導き、フィードバック制限された環境で強化学習をスケールするための強力なパラダイムとして報酬選択を確立する。
関連論文リスト
- A General Framework for Off-Policy Learning with Partially-Observed Reward [13.866986480307007]
文脈的包帯におけるオフ政治学習(OPL)は、期待される目標報酬を最大化する政策を学ぶことを目的としている。
報酬が部分的にしか観察されない場合、OPLの有効性は著しく低下する。
部分観測リワード(HyPeR)のためのハイブリッドポリシ最適化法を提案する。
論文 参考訳(メタデータ) (2025-06-17T11:58:11Z) - ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization [41.074747242532695]
Online Reward Selection and Policy Optimization (ORSO) は、オンラインモデル選択問題としてシェーピング報酬関数の選択を枠組みとした、新しいアプローチである。
ORSOは、整形報酬関数を評価するのに必要なデータ量を著しく削減し、データ効率と計算時間(最大8倍)の大幅な削減をもたらす。
ORSOは、従来の手法よりも50%以上優れた高品質の報酬関数を一貫して識別し、平均的にポリシーを、ドメインの専門家が手作業で設計した報酬関数を使って学んだものと同様に、パフォーマンスとして識別する。
論文 参考訳(メタデータ) (2024-10-17T17:55:05Z) - Hindsight PRIORs for Reward Learning from Human Preferences [3.4990427823966828]
嗜好に基づく強化学習(PbRL)では、政策行動に対する嗜好フィードバックから報酬を学習することで報酬関数を手渡す必要がなくなる。
PbRLへの現在のアプローチは、行動のどの部分が優先に最も寄与しているかを決定することに固有の信用割当問題に対処しない。
我々は、世界モデルを用いて軌道内の状態重要度を近似し、報酬を国家重要度に比例するように誘導する信用割当戦略(Hindsight PRIOR)を導入する。
論文 参考訳(メタデータ) (2024-04-12T21:59:42Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Policy Optimization via Adv2: Adversarial Learning on Advantage Functions [6.793286055326244]
対人マルコフ決定過程(MDP)における学習の減少を,Q$-値に基づく対人学習に再考する。
本稿では,移行カーネルが不明な現実的なシナリオにおいて,敵対的MDPにおける学習の減少が敵的学習に与える影響について論じる。
論文 参考訳(メタデータ) (2023-10-25T08:53:51Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Self Punishment and Reward Backfill for Deep Q-Learning [6.572828651397661]
強化学習エージェントは、通常環境によって提供される全報酬を最大化する行動を促すことで学習する。
多くの環境では、報酬は個々のアクションではなく一連のアクションの後に提供され、エージェントはそれらのアクションが有効かどうかという点であいまいさを経験する。
本研究では,行動心理学にインスパイアされた2つの戦略を提案する。
論文 参考訳(メタデータ) (2020-04-10T11:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。