Fugu-MT 論文翻訳(概要): Some Supervision Required: Incorporating Oracle Policies in Reinforcement Learning via Epistemic Uncertainty Metrics

論文の概要: Some Supervision Required: Incorporating Oracle Policies in Reinforcement Learning via Epistemic Uncertainty Metrics

arxiv url: http://arxiv.org/abs/2208.10533v3
Date: Mon, 21 Aug 2023 12:49:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-23 02:43:48.419426
Title: Some Supervision Required: Incorporating Oracle Policies in Reinforcement Learning via Epistemic Uncertainty Metrics
Title（参考訳）: Oracle の強化学習における不確実性指標によるポリシの導入
Authors: Jun Jet Tai, Jordan K. Terry, Mauro S. Innocente, James Brusey, Nadjim Horri
Abstract要約: 批判的信頼誘導探索(Critical Confidence Guided Exploration)は、政策の行動を提案として受け取り、この情報を学習スキームに組み込む。 CCGEは, 託宣方針を利用する隣接アルゴリズムに対して, 競合的に動作可能であることを示す。
参考スコア（独自算出の注目度）: 2.56865487804497
License: http://creativecommons.org/licenses/by/4.0/
Abstract: An inherent problem of reinforcement learning is performing exploration of an environment through random actions, of which a large portion can be unproductive. Instead, exploration can be improved by initializing the learning policy with an existing (previously learned or hard-coded) oracle policy, offline data, or demonstrations. In the case of using an oracle policy, it can be unclear how best to incorporate the oracle policy's experience into the learning policy in a way that maximizes learning sample efficiency. In this paper, we propose a method termed Critic Confidence Guided Exploration (CCGE) for incorporating such an oracle policy into standard actor-critic reinforcement learning algorithms. More specifically, CCGE takes in the oracle policy's actions as suggestions and incorporates this information into the learning scheme when uncertainty is high, while ignoring it when the uncertainty is low. CCGE is agnostic to methods of estimating uncertainty, and we show that it is equally effective with two different techniques. Empirically, we evaluate the effect of CCGE on various benchmark reinforcement learning tasks, and show that this idea can lead to improved sample efficiency and final performance. Furthermore, when evaluated on sparse reward environments, CCGE is able to perform competitively against adjacent algorithms that also leverage an oracle policy. Our experiments show that it is possible to utilize uncertainty as a heuristic to guide exploration using an oracle in reinforcement learning. We expect that this will inspire more research in this direction, where various heuristics are used to determine the direction of guidance provided to learning.
Abstract（参考訳）: 強化学習の本質的な問題は、ランダムな行動を通じて環境を探索することであり、その大部分は非生産的である。代わりに、学習ポリシーを既存の(学習あるいはハードコードされた)オラクルポリシー、オフラインデータ、あるいはデモで初期化することで、探索を改善することができる。 oracleのポリシを使用する場合、サンプル効率の学習を最大化する方法で、oracleのポリシの経験を学習ポリシに組み込む方法が明確になる可能性がある。本稿では,このようなoracleポリシーを標準のアクタ-批判的強化学習アルゴリズムに組み込むための,批判的信頼度誘導探索(ccge)という手法を提案する。より具体的には、CCGEは託宣方針の行動を提案として受け取り、不確実性が高ければ学習計画にこの情報を組み込むとともに、不確実性が低い場合は無視する。 CCGEは不確実性を推定する手法に非依存であり、2つの異なる手法でも同様に有効であることを示す。 CCGEが様々なベンチマーク強化学習タスクに与える影響を実証的に評価し、このアイデアがサンプル効率と最終性能の向上につながることを示す。さらに、スパース報酬環境の評価において、CCGEは、オラクルポリシーも活用する隣接するアルゴリズムに対して競合的に実行することができる。本実験は,不確実性をヒューリスティックとして活用して,強化学習におけるオラクルを用いた探索をガイドできることを示唆する。さまざまなヒューリスティックを使って学習指導の方向性を決定することで、この方向にさらなる研究がもたらされることを期待する。

関連論文リスト

OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [101.78963920333342]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。 OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文参考訳（メタデータ） (2025-06-14T20:16:37Z)
Learning to Explore: An In-Context Learning Approach for Pure Exploration [23.16863295063427]
本研究は, 純粋探索(Pure Exploring)としても知られる, 能動的逐次仮説試験問題について検討する。 In-Context Pure Exploration (ICPE, In-Context Pure Exploration) は, Transformer を用いて経験から直接探索戦略を学習する,コンテキスト内学習手法である。 ICPEは教師付き学習と強化学習を組み合わせて、事前の仮定を必要とせず、関連するタスクをまたいだ潜在構造を特定し、活用する。
論文参考訳（メタデータ） (2025-06-02T17:04:50Z)
Guided Policy Optimization under Partial Observability [36.853129816484845]
部分的に観察可能な環境下での強化学習(RL)は、不確実性の下での学習の複雑さによって大きな課題を生じさせる。本稿では,ガイドと学習者を協調訓練するフレームワークであるGPOを紹介する。理論的には、この学習方式は直接RLに匹敵する最適性を達成し、既存のアプローチに固有の重要な制限を克服する。
論文参考訳（メタデータ） (2025-05-21T12:01:08Z)
No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文参考訳（メタデータ） (2024-08-27T14:31:54Z)
Blending Imitation and Reinforcement Learning for Robust Policy Improvement [16.588397203235296]
イミテーション学習(Imitation Learning, IL)は、オークルを用いてサンプル効率を向上させる。 RPIはILの強みを生かし、オラクルクエリを使って探索を容易にする。 RPIは多様なブラックボックスのオラクルから学習し、改善することができる。
論文参考訳（メタデータ） (2023-10-03T01:55:54Z)
Assessor-Guided Learning for Continual Environments [17.181933166255448]
本稿では,継続的学習のための評価者指導型学習戦略を提案する。評価者は、学習過程の方向とペースを制御することにより、基礎学習者の学習過程を案内する。評価器はメタ学習方式でメタオブジェクトを用いて訓練され、ベース学習者の学習プロセスが促進される。
論文参考訳（メタデータ） (2023-03-21T06:45:14Z)
Inapplicable Actions Learning for Knowledge Transfer in Reinforcement Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文参考訳（メタデータ） (2022-11-28T17:45:39Z)
Curriculum Learning for Safe Mapless Navigation [71.55718344087657]
本研究は,カリキュラム学習(CL)に基づくアプローチがエージェントのパフォーマンスに与える影響について検討する。特に、ロボットマップレスナビゲーションの安全性に焦点をあて、標準的なエンドツーエンド(E2E)トレーニング戦略と比較する。
論文参考訳（メタデータ） (2021-12-23T12:30:36Z)
Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文参考訳（メタデータ） (2021-02-25T21:33:47Z)
Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文参考訳（メタデータ） (2021-02-18T05:11:41Z)
Policy Improvement via Imitation of Multiple Oracles [38.84810247415195]
イミテーションラーニング(Imitation Learning, IL)は、学習過程を加速するためにブートストラップとして訓練中にオラクルポリシーを使用する。我々は,このベンチマークと競合するポリシーを確実に学習できる新しいILアルゴリズムMAMBAを提案する。
論文参考訳（メタデータ） (2020-07-01T22:33:28Z)
META-Learning Eligibility Traces for More Sample Efficient Temporal Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文参考訳（メタデータ） (2020-06-16T03:41:07Z)
Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。ゼロ次監視政策改善(ZOSPI)を提案する。 ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文参考訳（メタデータ） (2020-06-11T16:49:23Z)
Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。実演なしで指導的学習を通じて効果的な政策を学べるか? 政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文参考訳（メタデータ） (2019-12-31T18:07:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。