論文の概要: Some Supervision Required: Incorporating Oracle Policies in
Reinforcement Learning via Epistemic Uncertainty Metrics
- arxiv url: http://arxiv.org/abs/2208.10533v1
- Date: Mon, 22 Aug 2022 18:26:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 12:30:50.251206
- Title: Some Supervision Required: Incorporating Oracle Policies in
Reinforcement Learning via Epistemic Uncertainty Metrics
- Title(参考訳): Oracle の強化学習における不確実性指標によるポリシの導入
- Authors: Jun Jet Tai, Jordan K. Terry, Mauro S. Innocente, James Brusey, Nadjim
Horri
- Abstract要約: 本稿では,Q値関数の不確かさ推定のための指標を提案する。
本研究では,この指標をDeep Q-Networks (DQN) に適用し,不確実性推定が学習進捗の有用な指標であることを示す。
そこで我々は,既存の(学習済みあるいはハードコードな)オラクルポリシーから学習することで,アクター批判アルゴリズムのサンプル効率を向上させるための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 2.9923891863939938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An inherent problem in reinforcement learning is coping with policies that
are uncertain about what action to take (or the value of a state). Model
uncertainty, more formally known as epistemic uncertainty, refers to the
expected prediction error of a model beyond the sampling noise. In this paper,
we propose a metric for epistemic uncertainty estimation in Q-value functions,
which we term pathwise epistemic uncertainty. We further develop a method to
compute its approximate upper bound, which we call F -value. We experimentally
apply the latter to Deep Q-Networks (DQN) and show that uncertainty estimation
in reinforcement learning serves as a useful indication of learning progress.
We then propose a new approach to improving sample efficiency in actor-critic
algorithms by learning from an existing (previously learned or hard-coded)
oracle policy while uncertainty is high, aiming to avoid unproductive random
actions during training. We term this Critic Confidence Guided Exploration
(CCGE). We implement CCGE on Soft Actor-Critic (SAC) using our F-value metric,
which we apply to a handful of popular Gym environments and show that it
achieves better sample efficiency and total episodic reward than vanilla SAC in
limited contexts.
- Abstract(参考訳): 強化学習における本質的な問題は、どのような行動(または状態の価値)をとるか不確実な政策に対処することである。
モデルの不確かさは、より正式には認識的不確実性と呼ばれ、サンプリングノイズを超えるモデルの予測誤差を指す。
本稿では,q値関数における認識的不確実性推定のための指標を提案し,パスワイズ認識的不確実性(pathwise epistemic uncertainty)と呼ぶ。
さらに、F値と呼ばれる近似上界を計算する方法を開発した。
後者をDeep Q-Networks (DQN) に実験的に適用し、強化学習における不確実性推定が学習進捗の有用な指標であることを示す。
そこで我々は,不確実性が高い一方で,既存の(学習済みあるいはハードコーディング済みの)オラクルポリシーから学習することで,アクター批判アルゴリズムのサンプル効率を向上させるための新しいアプローチを提案する。
これをCCGE(Critical Confidence Guided Exploration)と呼ぶ。
我々は,F値測定値を用いて,ソフトアクタ・クリティカル(SAC)にCCGEを実装し,いくつかの人気のあるGym環境に適用し,限られた文脈でバニラSACよりも優れたサンプル効率と総合的な報酬が得られることを示す。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Blending Imitation and Reinforcement Learning for Robust Policy
Improvement [16.588397203235296]
イミテーション学習(Imitation Learning, IL)は、オークルを用いてサンプル効率を向上させる。
RPIはILの強みを生かし、オラクルクエリを使って探索を容易にする。
RPIは多様なブラックボックスのオラクルから学習し、改善することができる。
論文 参考訳(メタデータ) (2023-10-03T01:55:54Z) - Assessor-Guided Learning for Continual Environments [17.181933166255448]
本稿では,継続的学習のための評価者指導型学習戦略を提案する。
評価者は、学習過程の方向とペースを制御することにより、基礎学習者の学習過程を案内する。
評価器はメタ学習方式でメタオブジェクトを用いて訓練され、ベース学習者の学習プロセスが促進される。
論文 参考訳(メタデータ) (2023-03-21T06:45:14Z) - Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - Curriculum Learning for Safe Mapless Navigation [71.55718344087657]
本研究は,カリキュラム学習(CL)に基づくアプローチがエージェントのパフォーマンスに与える影響について検討する。
特に、ロボットマップレスナビゲーションの安全性に焦点をあて、標準的なエンドツーエンド(E2E)トレーニング戦略と比較する。
論文 参考訳(メタデータ) (2021-12-23T12:30:36Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Policy Improvement via Imitation of Multiple Oracles [38.84810247415195]
イミテーションラーニング(Imitation Learning, IL)は、学習過程を加速するためにブートストラップとして訓練中にオラクルポリシーを使用する。
我々は,このベンチマークと競合するポリシーを確実に学習できる新しいILアルゴリズムMAMBAを提案する。
論文 参考訳(メタデータ) (2020-07-01T22:33:28Z) - META-Learning Eligibility Traces for More Sample Efficient Temporal
Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。
この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。
提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文 参考訳(メタデータ) (2020-06-16T03:41:07Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。