論文の概要: Active Policy Improvement from Multiple Black-box Oracles
- arxiv url: http://arxiv.org/abs/2306.10259v2
- Date: Wed, 5 Jul 2023 22:23:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 17:13:02.205747
- Title: Active Policy Improvement from Multiple Black-box Oracles
- Title(参考訳): 複数のブラックボックスオラクルからのアクティブポリシー改善
- Authors: Xuefeng Liu, Takuma Yoneda, Chaoqi Wang, Matthew R. Walter, Yuxin Chen
- Abstract要約: 我々は,複数の準最適オラクルから模倣学習を行うポリシ改善アルゴリズムのクラスであるMAPSとMAPS-SEを紹介する。
特にMAPSは、どのオラクルを模倣するかを積極的に選択し、値関数の推定を改善します。
我々は,MAPS-SEが複数のオーラクルからの状態的模倣学習を通じて,政策最適化を著しく促進することを示す。
- 参考スコア(独自算出の注目度): 24.320182712799955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has made significant strides in various complex
domains. However, identifying an effective policy via RL often necessitates
extensive exploration. Imitation learning aims to mitigate this issue by using
expert demonstrations to guide exploration. In real-world scenarios, one often
has access to multiple suboptimal black-box experts, rather than a single
optimal oracle. These experts do not universally outperform each other across
all states, presenting a challenge in actively deciding which oracle to use and
in which state. We introduce MAPS and MAPS-SE, a class of policy improvement
algorithms that perform imitation learning from multiple suboptimal oracles. In
particular, MAPS actively selects which of the oracles to imitate and improve
their value function estimates, and MAPS-SE additionally leverages an active
state exploration criterion to determine which states one should explore. We
provide a comprehensive theoretical analysis and demonstrate that MAPS and
MAPS-SE enjoy sample efficiency advantage over the state-of-the-art policy
improvement algorithms. Empirical results show that MAPS-SE significantly
accelerates policy optimization via state-wise imitation learning from multiple
oracles across a broad spectrum of control tasks in the DeepMind Control Suite.
Our code is publicly available at: https://github.com/ripl/maps.
- Abstract(参考訳): 強化学習(RL)は様々な複雑な領域において大きな進歩を遂げてきた。
しかし、rlによる効果的な政策の特定は、しばしば広範な探検を必要とする。
模倣学習は、専門家のデモンストレーションを使って探索をガイドすることでこの問題を軽減することを目的としている。
現実のシナリオでは、一つの最適なオラクルではなく、複数のブラックボックスの専門家にアクセスできることが多い。
これらの専門家は、すべての州で相互に勝ってはおらず、どのoracleを使うべきか、どの州で使うべきかを積極的に決定する上での課題を提示している。
我々は,複数の準最適オラクルから模倣学習を行うポリシ改善アルゴリズムのクラスであるMAPSとMAPS-SEを紹介する。
特に、MAPSはどのオークルを選択して値関数の推定を模倣し改善するかを積極的に選択し、MAPS-SEはアクティブな状態探索基準を活用してどの状態を探索すべきかを決定する。
我々は,MAPSとMAPS-SEが,最先端の政策改善アルゴリズムよりも有効であることを示す。
実証実験の結果,MAPS-SEはDeepMind Control Suiteの幅広い制御タスクにまたがる複数のオーラクルからの状態的模倣学習を通じて,政策最適化を著しく促進することが示された。
私たちのコードは、https://github.com/ripl/maps.comで公開されています。
関連論文リスト
- EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - MESA: Cooperative Meta-Exploration in Multi-Agent Learning through Exploiting State-Action Space Structure [37.56309011441144]
本稿では,協調型マルチエージェント学習のためのメタ探索手法であるMESAを紹介する。
エージェントはまず、訓練タスクからエージェントの高度に反転する状態-行動サブスペースを識別し、次にサブスペースを"探索する"ための多様な探索ポリシーのセットを学ぶことで探索を学ぶ。
実験の結果,多エージェント粒子環境とマルチエージェント MuJoCo 環境におけるスパース・リワードタスクにおいて,MESA は学習された探索ポリシにより,大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2024-05-01T23:19:48Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Blending Imitation and Reinforcement Learning for Robust Policy
Improvement [16.588397203235296]
イミテーション学習(Imitation Learning, IL)は、オークルを用いてサンプル効率を向上させる。
RPIはILの強みを生かし、オラクルクエリを使って探索を容易にする。
RPIは多様なブラックボックスのオラクルから学習し、改善することができる。
論文 参考訳(メタデータ) (2023-10-03T01:55:54Z) - Near-optimal Policy Identification in Active Reinforcement Learning [84.27592560211909]
AE-LSVI はカーネル化された最小二乗値 RL (LSVI) アルゴリズムの新しい変種であり、楽観主義と悲観主義を組み合わせて活発な探索を行う。
AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:46:57Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。
MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-03-02T18:59:56Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Policy Improvement via Imitation of Multiple Oracles [38.84810247415195]
イミテーションラーニング(Imitation Learning, IL)は、学習過程を加速するためにブートストラップとして訓練中にオラクルポリシーを使用する。
我々は,このベンチマークと競合するポリシーを確実に学習できる新しいILアルゴリズムMAMBAを提案する。
論文 参考訳(メタデータ) (2020-07-01T22:33:28Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。