論文の概要: Useful Policy Invariant Shaping from Arbitrary Advice
- arxiv url: http://arxiv.org/abs/2011.01297v1
- Date: Mon, 2 Nov 2020 20:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:02:27.229377
- Title: Useful Policy Invariant Shaping from Arbitrary Advice
- Title(参考訳): 任意のアドバイスから有用な方針不変形作法
- Authors: Paniz Behboudian, Yash Satsangi, Matthew E. Taylor, Anna Harutyunyan,
Michael Bowling
- Abstract要約: RL研究の大きな課題は、少ないデータで学習する方法を見つけることである。
可能性に基づく報酬形成 (PBRS) は約束があるが、十分に定義されたポテンシャル関数の必要性によって制限される。
最近導入された動的電位ベースのアドバイス(DPBA)メソッドは、人間や他のエージェントからの任意のアドバイスを認めることで、この問題に対処する。
- 参考スコア(独自算出の注目度): 24.59807772487328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is a powerful learning paradigm in which agents can
learn to maximize sparse and delayed reward signals. Although RL has had many
impressive successes in complex domains, learning can take hours, days, or even
years of training data. A major challenge of contemporary RL research is to
discover how to learn with less data. Previous work has shown that domain
information can be successfully used to shape the reward; by adding additional
reward information, the agent can learn with much less data. Furthermore, if
the reward is constructed from a potential function, the optimal policy is
guaranteed to be unaltered. While such potential-based reward shaping (PBRS)
holds promise, it is limited by the need for a well-defined potential function.
Ideally, we would like to be able to take arbitrary advice from a human or
other agent and improve performance without affecting the optimal policy. The
recently introduced dynamic potential based advice (DPBA) method tackles this
challenge by admitting arbitrary advice from a human or other agent and
improves performance without affecting the optimal policy. The main
contribution of this paper is to expose, theoretically and empirically, a flaw
in DPBA. Alternatively, to achieve the ideal goals, we present a simple method
called policy invariant explicit shaping (PIES) and show theoretically and
empirically that PIES succeeds where DPBA fails.
- Abstract(参考訳): 強化学習は、エージェントがスパースと遅延報酬信号を最大化するために学習できる強力な学習パラダイムである。
rlは複雑なドメインで多くの素晴らしい成功を収めていますが、学習には数時間、日、さらには何年ものトレーニングデータが必要です。
現代のRL研究の大きな課題は、少ないデータで学習する方法を見つけることである。
以前の研究では、ドメイン情報は報酬を形作るのにうまく使えることを示しており、追加の報酬情報を追加することで、エージェントはより少ないデータで学習することができる。
さらに、潜在的関数から報酬が構成された場合、最適ポリシーは変更されないことが保証される。
このようなポテンシャルに基づく報酬形成(PBRS)は約束を保っているが、十分に定義されたポテンシャル関数の必要性によって制限されている。
理想的には、最適なポリシーに影響を与えることなく、人間や他のエージェントから任意のアドバイスを受け、パフォーマンスを改善したいと思っています。
最近導入されたdynamic potential based advice (dpba)法は、人間や他のエージェントからの任意のアドバイスを認め、最適なポリシーに影響を与えずにパフォーマンスを向上させることで、この課題に対処している。
本論文の主な貢献は,理論上,実証的にdpbaの欠陥を明らかにすることである。
あるいは、理想的な目標を達成するために、政策不変な明示的整形(PIES)と呼ばれる簡単な方法を提案し、理論上、実証的に、PIESがDPBAが失敗した場合に成功することを示す。
関連論文リスト
- Potential-Based Reward Shaping For Intrinsic Motivation [4.798097103214276]
内在的モチベーション(IM)報酬形成手法は、環境における最適な政策のセットを不注意に変更し、最適以下の行動を引き起こす。
PBRSの拡張として、より一般的な関数集合の下で最適なポリシーの集合を保存することを証明した。
また、最適ポリシーのセットを変更することなく、IM報酬をポテンシャルベースの形式に変換する方法であるPBIM(Em potential-based Intrinsic Motivation)を提案する。
論文 参考訳(メタデータ) (2024-02-12T05:12:09Z) - Adversarial Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
ディープニューラルネットワークで表されるポリシーは過度に適合し、強化学習エージェントが効果的なポリシーを学ぶのを妨げます。
データ拡張は、オーバーフィッティングの効果を軽減し、RLエージェントのパフォーマンスを高めることができる。
本稿では、上記の問題を緩和し、学習ポリシーの効率を向上させるための新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T21:01:08Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。