論文の概要: Some Supervision Required: Incorporating Oracle Policies in
Reinforcement Learning via Epistemic Uncertainty Metrics
- arxiv url: http://arxiv.org/abs/2208.10533v3
- Date: Mon, 21 Aug 2023 12:49:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 02:43:48.419426
- Title: Some Supervision Required: Incorporating Oracle Policies in
Reinforcement Learning via Epistemic Uncertainty Metrics
- Title(参考訳): Oracle の強化学習における不確実性指標によるポリシの導入
- Authors: Jun Jet Tai, Jordan K. Terry, Mauro S. Innocente, James Brusey, Nadjim
Horri
- Abstract要約: 批判的信頼誘導探索(Critical Confidence Guided Exploration)は、政策の行動を提案として受け取り、この情報を学習スキームに組み込む。
CCGEは, 託宣方針を利用する隣接アルゴリズムに対して, 競合的に動作可能であることを示す。
- 参考スコア(独自算出の注目度): 2.56865487804497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An inherent problem of reinforcement learning is performing exploration of an
environment through random actions, of which a large portion can be
unproductive. Instead, exploration can be improved by initializing the learning
policy with an existing (previously learned or hard-coded) oracle policy,
offline data, or demonstrations. In the case of using an oracle policy, it can
be unclear how best to incorporate the oracle policy's experience into the
learning policy in a way that maximizes learning sample efficiency. In this
paper, we propose a method termed Critic Confidence Guided Exploration (CCGE)
for incorporating such an oracle policy into standard actor-critic
reinforcement learning algorithms. More specifically, CCGE takes in the oracle
policy's actions as suggestions and incorporates this information into the
learning scheme when uncertainty is high, while ignoring it when the
uncertainty is low. CCGE is agnostic to methods of estimating uncertainty, and
we show that it is equally effective with two different techniques.
Empirically, we evaluate the effect of CCGE on various benchmark reinforcement
learning tasks, and show that this idea can lead to improved sample efficiency
and final performance. Furthermore, when evaluated on sparse reward
environments, CCGE is able to perform competitively against adjacent algorithms
that also leverage an oracle policy. Our experiments show that it is possible
to utilize uncertainty as a heuristic to guide exploration using an oracle in
reinforcement learning. We expect that this will inspire more research in this
direction, where various heuristics are used to determine the direction of
guidance provided to learning.
- Abstract(参考訳): 強化学習の本質的な問題は、ランダムな行動を通じて環境を探索することであり、その大部分は非生産的である。
代わりに、学習ポリシーを既存の(学習あるいはハードコードされた)オラクルポリシー、オフラインデータ、あるいはデモで初期化することで、探索を改善することができる。
oracleのポリシを使用する場合、サンプル効率の学習を最大化する方法で、oracleのポリシの経験を学習ポリシに組み込む方法が明確になる可能性がある。
本稿では,このようなoracleポリシーを標準のアクタ-批判的強化学習アルゴリズムに組み込むための,批判的信頼度誘導探索(ccge)という手法を提案する。
より具体的には、CCGEは託宣方針の行動を提案として受け取り、不確実性が高ければ学習計画にこの情報を組み込むとともに、不確実性が低い場合は無視する。
CCGEは不確実性を推定する手法に非依存であり、2つの異なる手法でも同様に有効であることを示す。
CCGEが様々なベンチマーク強化学習タスクに与える影響を実証的に評価し、このアイデアがサンプル効率と最終性能の向上につながることを示す。
さらに、スパース報酬環境の評価において、CCGEは、オラクルポリシーも活用する隣接するアルゴリズムに対して競合的に実行することができる。
本実験は,不確実性をヒューリスティックとして活用して,強化学習におけるオラクルを用いた探索をガイドできることを示唆する。
さまざまなヒューリスティックを使って学習指導の方向性を決定することで、この方向にさらなる研究がもたらされることを期待する。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Blending Imitation and Reinforcement Learning for Robust Policy
Improvement [16.588397203235296]
イミテーション学習(Imitation Learning, IL)は、オークルを用いてサンプル効率を向上させる。
RPIはILの強みを生かし、オラクルクエリを使って探索を容易にする。
RPIは多様なブラックボックスのオラクルから学習し、改善することができる。
論文 参考訳(メタデータ) (2023-10-03T01:55:54Z) - Assessor-Guided Learning for Continual Environments [17.181933166255448]
本稿では,継続的学習のための評価者指導型学習戦略を提案する。
評価者は、学習過程の方向とペースを制御することにより、基礎学習者の学習過程を案内する。
評価器はメタ学習方式でメタオブジェクトを用いて訓練され、ベース学習者の学習プロセスが促進される。
論文 参考訳(メタデータ) (2023-03-21T06:45:14Z) - Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - Curriculum Learning for Safe Mapless Navigation [71.55718344087657]
本研究は,カリキュラム学習(CL)に基づくアプローチがエージェントのパフォーマンスに与える影響について検討する。
特に、ロボットマップレスナビゲーションの安全性に焦点をあて、標準的なエンドツーエンド(E2E)トレーニング戦略と比較する。
論文 参考訳(メタデータ) (2021-12-23T12:30:36Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Policy Improvement via Imitation of Multiple Oracles [38.84810247415195]
イミテーションラーニング(Imitation Learning, IL)は、学習過程を加速するためにブートストラップとして訓練中にオラクルポリシーを使用する。
我々は,このベンチマークと競合するポリシーを確実に学習できる新しいILアルゴリズムMAMBAを提案する。
論文 参考訳(メタデータ) (2020-07-01T22:33:28Z) - META-Learning Eligibility Traces for More Sample Efficient Temporal
Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。
この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。
提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文 参考訳(メタデータ) (2020-06-16T03:41:07Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。