論文の概要: Provable Hierarchical Imitation Learning via EM
- arxiv url: http://arxiv.org/abs/2010.03133v2
- Date: Sun, 14 Feb 2021 04:01:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 22:27:50.083642
- Title: Provable Hierarchical Imitation Learning via EM
- Title(参考訳): EMによる確率的階層的模倣学習
- Authors: Zhiyu Zhang, Ioannis Paschalidis
- Abstract要約: 専門家による実証から選択肢型階層政策を学習することを検討する。
Danielらによって提案されたEMアプローチを特徴付ける。
提案アルゴリズムは実パラメータの周囲のノルム球に高い確率で収束することを示す。
- 参考スコア(独自算出の注目度): 2.864550757598007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to recent empirical successes, the options framework for hierarchical
reinforcement learning is gaining increasing popularity. Rather than learning
from rewards which suffers from the curse of dimensionality, we consider
learning an options-type hierarchical policy from expert demonstrations. Such a
problem is referred to as hierarchical imitation learning. Converting this
problem to parameter inference in a latent variable model, we theoretically
characterize the EM approach proposed by Daniel et al. (2016). The population
level algorithm is analyzed as an intermediate step, which is nontrivial due to
the samples being correlated. If the expert policy can be parameterized by a
variant of the options framework, then under regularity conditions, we prove
that the proposed algorithm converges with high probability to a norm ball
around the true parameter. To our knowledge, this is the first performance
guarantee for an hierarchical imitation learning algorithm that only observes
primitive state-action pairs.
- Abstract(参考訳): 最近の経験的成功により、階層的強化学習のためのオプションフレームワークが人気が高まっている。
次元の呪いに苦しむ報酬から学ぶのではなく、専門家のデモンストレーションからオプションタイプの階層政策を学ぶことを考える。
このような問題を階層的模倣学習と呼ぶ。
この問題を潜在変数モデルでパラメータ推論に変換することにより、Daniel et al. (2016) によって提案されたEMアプローチを理論的に特徴づける。
集団レベルのアルゴリズムは中間段階として分析され、サンプルが相関しているため非自明である。
もし専門家ポリシーがオプションフレームワークの変種によってパラメータ化できるなら、規則性条件下では、提案アルゴリズムは真のパラメータの周りのノルム球に高い確率で収束することが証明される。
我々の知る限り、これは原始的な状態-動作ペアのみを観測する階層的模倣学習アルゴリズムに対する最初の性能保証である。
関連論文リスト
- Sequential Knockoffs for Variable Selection in Reinforcement Learning [14.090478204002599]
マルコフ決定過程(MDP)における十分最小状態の概念を導入する。
本稿では,高次元複素非線形力学系における最小限の十分状態を推定する新しいシーケンシャルノックオフ(SEEK)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-24T21:39:06Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - A Low Rank Promoting Prior for Unsupervised Contrastive Learning [108.91406719395417]
提案手法は,従来の低階の促進をコントラスト学習の枠組みに効果的に組み込む新しい確率的グラフィカルモデルを構築する。
我々の仮説は、同じインスタンスクラスに属するすべてのサンプルが、小さな次元の同じ部分空間上にあることを明示的に要求する。
実証的な証拠は、提案アルゴリズムが複数のベンチマークにおける最先端のアプローチを明らかに上回っていることを示している。
論文 参考訳(メタデータ) (2021-08-05T15:58:25Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate
in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。
本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文 参考訳(メタデータ) (2021-04-12T13:13:34Z) - Online Baum-Welch algorithm for Hierarchical Imitation Learning [7.271970309320002]
オプションフレームワークで階層的な模倣学習を行うためのオンラインアルゴリズムを提案する。
このアプローチは離散環境と連続環境の両方でうまく機能することを示す。
論文 参考訳(メタデータ) (2021-03-22T22:03:25Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z) - Simple and optimal methods for stochastic variational inequalities, II:
Markovian noise and policy evaluation in reinforcement learning [9.359939442911127]
本稿ではマルコフ雑音下での変分不等式(VI)のリセットに着目する。
我々のアルゴリズム開発における顕著な応用は、強化学習における政策評価問題である。
論文 参考訳(メタデータ) (2020-11-15T04:05:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。