論文の概要: Policy Improvement via Imitation of Multiple Oracles
- arxiv url: http://arxiv.org/abs/2007.00795v2
- Date: Sun, 6 Dec 2020 04:02:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 21:41:08.851893
- Title: Policy Improvement via Imitation of Multiple Oracles
- Title(参考訳): 複数のオラクルの模倣による政策改善
- Authors: Ching-An Cheng, Andrey Kolobov, Alekh Agarwal
- Abstract要約: イミテーションラーニング(Imitation Learning, IL)は、学習過程を加速するためにブートストラップとして訓練中にオラクルポリシーを使用する。
我々は,このベンチマークと競合するポリシーを確実に学習できる新しいILアルゴリズムMAMBAを提案する。
- 参考スコア(独自算出の注目度): 38.84810247415195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite its promise, reinforcement learning's real-world adoption has been
hampered by the need for costly exploration to learn a good policy. Imitation
learning (IL) mitigates this shortcoming by using an oracle policy during
training as a bootstrap to accelerate the learning process. However, in many
practical situations, the learner has access to multiple suboptimal oracles,
which may provide conflicting advice in a state. The existing IL literature
provides a limited treatment of such scenarios. Whereas in the single-oracle
case, the return of the oracle's policy provides an obvious benchmark for the
learner to compete against, neither such a benchmark nor principled ways of
outperforming it are known for the multi-oracle setting. In this paper, we
propose the state-wise maximum of the oracle policies' values as a natural
baseline to resolve conflicting advice from multiple oracles. Using a reduction
of policy optimization to online learning, we introduce a novel IL algorithm
MAMBA, which can provably learn a policy competitive with this benchmark. In
particular, MAMBA optimizes policies by using a gradient estimator in the style
of generalized advantage estimation (GAE). Our theoretical analysis shows that
this design makes MAMBA robust and enables it to outperform the oracle policies
by a larger margin than the IL state of the art, even in the single-oracle
case. In an evaluation against standard policy gradient with GAE and
AggreVaTe(D), we showcase MAMBA's ability to leverage demonstrations both from
a single and from multiple weak oracles, and significantly speed up policy
optimization.
- Abstract(参考訳): その約束にもかかわらず、強化学習の現実世界での採用は、良い政策を学ぶために高価な探索の必要性によって妨げられている。
模倣学習(il)は、学習プロセスを加速するためにブートストラップとしてのトレーニング中にoracleポリシーを使用することで、この欠点を軽減する。
しかし、多くの実践的な状況において、学習者は複数の準最適オラクルにアクセスでき、状態において矛盾するアドバイスを与える可能性がある。
既存のIL文献はそのようなシナリオを限定的に扱います。
単一オラクルのケースでは、oracleのポリシーの復活は、学習者が競合する明白なベンチマークを提供するが、そのようなベンチマークや原則的な方法がマルチオラクルの設定で知られているものよりも優れているわけではない。
本稿では,複数のオラクルからの矛盾するアドバイスを解決するための自然な基準として,託宣方針の値の州別最大化を提案する。
オンライン学習におけるポリシー最適化の削減により、このベンチマークと競合するポリシーを確実に学習できる新しいilアルゴリズムmambaを導入する。
特に、MAMBAは、一般化優位推定(GAE)スタイルの勾配推定器を用いてポリシーを最適化する。
私たちの理論的分析では、この設計により、mambaは堅牢になり、単一のoracleのケースであっても、oracleのポリシーをilの状態よりも大きなマージンで上回ることができることが示されています。
本稿では,GAE と AggreVaTe(D) による標準政策勾配の評価において,MAMBA が単一および複数の弱いオーラクルから実演を活用できることを示し,政策最適化を著しく高速化することを示した。
関連論文リスト
- Blending Imitation and Reinforcement Learning for Robust Policy
Improvement [16.588397203235296]
イミテーション学習(Imitation Learning, IL)は、オークルを用いてサンプル効率を向上させる。
RPIはILの強みを生かし、オラクルクエリを使って探索を容易にする。
RPIは多様なブラックボックスのオラクルから学習し、改善することができる。
論文 参考訳(メタデータ) (2023-10-03T01:55:54Z) - Active Policy Improvement from Multiple Black-box Oracles [24.320182712799955]
我々は,複数の準最適オラクルから模倣学習を行うポリシ改善アルゴリズムのクラスであるMAPSとMAPS-SEを紹介する。
特にMAPSは、どのオラクルを模倣するかを積極的に選択し、値関数の推定を改善します。
我々は,MAPS-SEが複数のオーラクルからの状態的模倣学習を通じて,政策最適化を著しく促進することを示す。
論文 参考訳(メタデータ) (2023-06-17T05:03:43Z) - Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual
Bandits [82.28442917447643]
悲観的OPOのための最初の一般オラクル効率アルゴリズムを提案する。
従来の悲観的アプローチと類似した統計的保証を得る。
我々は多種多様な構成の非正規化OPOに対して優位性を示す。
論文 参考訳(メタデータ) (2023-06-13T17:29:50Z) - DoMo-AC: Doubly Multi-step Off-policy Actor-Critic Algorithm [48.60180355291149]
本稿では,多段階政策改善と政策評価を組み合わせた新しいオラクルアルゴリズムDoMo-VIを提案する。
次に,DoMo-VIアルゴリズムの現実的なインスタンス化である2段階のオフポリチック・アクター・クリティック(DoMo-AC)を提案する。
論文 参考訳(メタデータ) (2023-05-29T14:36:51Z) - Some Supervision Required: Incorporating Oracle Policies in
Reinforcement Learning via Epistemic Uncertainty Metrics [2.56865487804497]
批判的信頼誘導探索(Critical Confidence Guided Exploration)は、政策の行動を提案として受け取り、この情報を学習スキームに組み込む。
CCGEは, 託宣方針を利用する隣接アルゴリズムに対して, 競合的に動作可能であることを示す。
論文 参考訳(メタデータ) (2022-08-22T18:26:43Z) - ReVar: Strengthening Policy Evaluation via Reduced Variance Sampling [10.925914554822343]
我々は木構造MDPのクラス内で最適なデータ収集の理論を開発する。
我々はReVarがオラクル戦略に匹敵する平均二乗誤差で政策評価につながることを実証的に検証した。
論文 参考訳(メタデータ) (2022-03-09T03:41:15Z) - Optimization Issues in KL-Constrained Approximate Policy Iteration [48.24321346619156]
多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。
標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。
TRPO、MPO、VMPOなどの一般的な実用的なアルゴリズムは、連続ポリシーのKL分割に関する制約によって正規化を置き換える。
論文 参考訳(メタデータ) (2021-02-11T19:35:33Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。