論文の概要: A State Augmentation based approach to Reinforcement Learning from Human
Preferences
- arxiv url: http://arxiv.org/abs/2302.08734v1
- Date: Fri, 17 Feb 2023 07:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 15:29:13.742036
- Title: A State Augmentation based approach to Reinforcement Learning from Human
Preferences
- Title(参考訳): 状態強化に基づく人間選好からの強化学習へのアプローチ
- Authors: Mudit Verma, Subbarao Kambhampati
- Abstract要約: 優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
- 参考スコア(独自算出の注目度): 20.13307800821161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning has suffered from poor reward specification, and
issues for reward hacking even in simple enough domains. Preference Based
Reinforcement Learning attempts to solve the issue by utilizing binary
feedbacks on queried trajectory pairs by a human in the loop indicating their
preferences about the agent's behavior to learn a reward model. In this work,
we present a state augmentation technique that allows the agent's reward model
to be robust and follow an invariance consistency that significantly improved
performance, i.e. the reward recovery and subsequent return computed using the
learned policy over our baseline PEBBLE. We validate our method on three
domains, Mountain Car, a locomotion task of Quadruped-Walk, and a robotic
manipulation task of Sweep-Into, and find that using the proposed augmentation
the agent not only benefits in the overall performance but does so, quite early
in the agent's training phase.
- Abstract(参考訳): 強化学習は、報酬仕様の貧弱さや、十分にシンプルなドメインでも報酬ハッキングの問題に苦しんでいる。
選好に基づく強化学習は、報酬モデルを学ぶためにエージェントの行動に対する好みを示すループ内の人間がクエリした軌道対の2次フィードバックを利用することで、この問題を解決しようとする。
本研究では,エージェントの報酬モデルを堅牢にし,性能を著しく向上させる不変性,すなわち,ベースラインPEBBLE上での学習ポリシを用いて得られた報酬回復とその後の返却を演算する状態拡張手法を提案する。
提案手法は,山車,四足歩行の歩行作業,スイープイントのロボット操作作業の3つの領域で検証し,提案手法を用いることにより,エージェントの全体的な性能にメリットがあるだけでなく,エージェントの訓練段階のかなり早い段階でその効果が得られた。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Reinforcement Learning From Imperfect Corrective Actions And Proxy Rewards [38.056359612828466]
我々は、修正行動とプロキシ報酬(ICoPro)から反復学習と呼ばれる新しい値に基づく深部RLアルゴリズムを提案する。
様々なタスク(アタリゲームと高速道路での自動運転)に関する提案を実験的に検証する。
論文 参考訳(メタデータ) (2024-10-08T08:04:09Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - Backward Curriculum Reinforcement Learning [0.0]
現在の強化学習アルゴリズムは、前向きに生成された軌道を使ってエージェントを訓練する。
十分な探索から強化学習の価値を実現する一方で、このアプローチはサンプル効率を失う際のトレードオフにつながる。
本稿では,従来の前進路ではなく,後進路を用いてエージェントを訓練する新しい後進カリキュラム強化学習を提案する。
論文 参考訳(メタデータ) (2022-12-29T08:23:39Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。