論文の概要: Reducing Reward Dependence in RL Through Adaptive Confidence Discounting
- arxiv url: http://arxiv.org/abs/2502.21181v1
- Date: Fri, 28 Feb 2025 15:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:41:12.402317
- Title: Reducing Reward Dependence in RL Through Adaptive Confidence Discounting
- Title(参考訳): 適応的信頼分散によるRLの後退依存性の低減
- Authors: Muhammed Yusuf Satici, David L. Roberts,
- Abstract要約: 環境状態における行動の価値の知識が低い場合にのみ報酬を要求できる新しい強化学習アルゴリズムを提供する。
高価な報酬への依存を減らすことで、報酬を得るための物流や費用が禁止されるような環境で、効率的に学習することができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In human-in-the-loop reinforcement learning or environments where calculating a reward is expensive, the costly rewards can make learning efficiency challenging to achieve. The cost of obtaining feedback from humans or calculating expensive rewards means algorithms receiving feedback at every step of long training sessions may be infeasible, which may limit agents' abilities to efficiently improve performance. Our aim is to reduce the reliance of learning agents on humans or expensive rewards, improving the efficiency of learning while maintaining the quality of the learned policy. We offer a novel reinforcement learning algorithm that requests a reward only when its knowledge of the value of actions in an environment state is low. Our approach uses a reward function model as a proxy for human-delivered or expensive rewards when confidence is high, and asks for those explicit rewards only when there is low confidence in the model's predicted rewards and/or action selection. By reducing dependence on the expensive-to-obtain rewards, we are able to learn efficiently in settings where the logistics or expense of obtaining rewards may otherwise prohibit it. In our experiments our approach obtains comparable performance to a baseline in terms of return and number of episodes required to learn, but achieves that performance with as few as 20% of the rewards.
- Abstract(参考訳): 人力による強化学習や、報酬の計算が高価である環境では、コストのかかる報酬は、学習効率の達成を難しくする。
人間からのフィードバックを得るコストや高価な報酬を計算するコストは、長いトレーニングセッションのすべてのステップでフィードバックを受けるアルゴリズムは実現不可能であり、パフォーマンスを効率的に改善するエージェントの能力を制限する可能性があることを意味する。
我々の目的は、学習エージェントが人間や高価な報酬に依存することを減らすことであり、学習方針の質を維持しながら学習効率を向上させることである。
環境状態における行動の価値の知識が低い場合にのみ報酬を要求できる新しい強化学習アルゴリズムを提供する。
提案手法では,信頼度が高い場合の人為的報酬や高価な報酬の代理として報酬関数モデルを用い,モデルが予測した報酬や行動選択に対する信頼度が低い場合にのみ,その明示的な報酬を求める。
高価な報酬への依存を減らすことで、報酬を得るための物流や費用が禁止されるような環境で、効率的に学習することができる。
実験では,学習に必要なエピソード数やリターン数の観点から,ベースラインに匹敵する性能を得られるが,その性能は報酬の20%に満たない。
関連論文リスト
- Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - A Study on Dense and Sparse (Visual) Rewards in Robot Policy Learning [19.67628391301068]
我々は,様々な種類の報酬の下で,複数の最先端の深層強化学習アルゴリズムの性能について検討した。
以上の結果から,視覚的疎度報酬は視覚的疎度報酬よりも優れており,全てのタスクに最適なアルゴリズムが存在しないことが示唆された。
論文 参考訳(メタデータ) (2021-08-06T17:47:48Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Subgoal-based Reward Shaping to Improve Efficiency in Reinforcement
Learning [7.6146285961466]
我々は、ポテンシャルベース報酬形成を拡張し、サブゴールベース報酬形成を提案する。
我々の手法は,人間の訓練者がサブゴールの知識を共有するのを容易にする。
論文 参考訳(メタデータ) (2021-04-13T14:28:48Z) - Deceptive Reinforcement Learning for Privacy-Preserving Planning [8.950168559003991]
強化学習は、探索行動から得られる報酬に基づいて行動ポリシーを見つける問題である。
強化学習の鍵となる要素は報酬関数であり、報酬(負または正の)が与えられるか、いつ与えられるかを決定する。
プライバシー保護強化学習の課題を解決するための2つのモデルを提案する。
論文 参考訳(メタデータ) (2021-02-05T06:50:04Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。