論文の概要: Online Baum-Welch algorithm for Hierarchical Imitation Learning
- arxiv url: http://arxiv.org/abs/2103.12197v1
- Date: Mon, 22 Mar 2021 22:03:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 14:03:04.559184
- Title: Online Baum-Welch algorithm for Hierarchical Imitation Learning
- Title(参考訳): 階層的模倣学習のためのオンラインbaum-welchアルゴリズム
- Authors: Vittorio Giammarino and Ioannis Ch. Paschalidis
- Abstract要約: オプションフレームワークで階層的な模倣学習を行うためのオンラインアルゴリズムを提案する。
このアプローチは離散環境と連続環境の両方でうまく機能することを示す。
- 参考スコア(独自算出の注目度): 7.271970309320002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The options framework for hierarchical reinforcement learning has increased
its popularity in recent years and has made improvements in tackling the
scalability problem in reinforcement learning. Yet, most of these recent
successes are linked with a proper options initialization or discovery. When an
expert is available, the options discovery problem can be addressed by learning
an options-type hierarchical policy directly from expert demonstrations. This
problem is referred to as hierarchical imitation learning and can be handled as
an inference problem in a Hidden Markov Model, which is done via an
Expectation-Maximization type algorithm. In this work, we propose a novel
online algorithm to perform hierarchical imitation learning in the options
framework. Further, we discuss the benefits of such an algorithm and compare it
with its batch version in classical reinforcement learning benchmarks. We show
that this approach works well in both discrete and continuous environments and,
under certain conditions, it outperforms the batch version.
- Abstract(参考訳): 近年,階層型強化学習の選択肢フレームワークが人気を博し,強化学習におけるスケーラビリティ問題に対処する上で改良が加えられている。
しかし、最近の成功の大部分は、適切なオプションの初期化や発見に関連している。
専門家が利用できる場合、専門家のデモンストレーションから直接オプションタイプの階層ポリシーを学ぶことで、オプション発見の問題に対処することができる。
この問題は階層的模倣学習と呼ばれ、期待最大化型アルゴリズムによって行われる隠れマルコフモデルにおける推論問題として扱うことができる。
本稿では,optionsフレームワークにおいて階層的模倣学習を行うための新しいオンラインアルゴリズムを提案する。
さらに,このようなアルゴリズムの利点を考察し,古典的強化学習ベンチマークにおいて,そのバッチ版と比較する。
このアプローチは離散環境と連続環境の両方でうまく機能し、ある条件下ではバッチバージョンよりも優れています。
関連論文リスト
- A Provably Efficient Option-Based Algorithm for both High-Level and Low-Level Learning [54.20447310988282]
異なる(高低と高低の)時間的抽象化において,後悔最小化アルゴリズムのメタアルゴリズムを交互に提案する。
高いレベルでは、半マルコフ決定プロセス(SMDP)として、固定された低レベルポリシーで、低いレベルでは内部オプションポリシーを固定された高レベルポリシーで学習する。
論文 参考訳(メタデータ) (2024-06-21T13:17:33Z) - ReconBoost: Boosting Can Achieve Modality Reconcilement [89.4377895465204]
我々は、調和を達成するために、モダリティ代替学習パラダイムについて研究する。
固定モードを毎回更新するReconBoostと呼ばれる新しい手法を提案する。
提案手法はFriedman's Gradient-Boosting (GB) アルゴリズムに似ており,更新された学習者が他者による誤りを訂正できることを示す。
論文 参考訳(メタデータ) (2024-05-15T13:22:39Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Tree-Based Adaptive Model Learning [62.997667081978825]
我々はKearns-Vazirani学習アルゴリズムを拡張し、時間とともに変化するシステムを扱う。
本稿では,学習前の動作を再利用し,更新し,LearnerLibライブラリに実装し,大規模な実例で評価する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-31T21:24:22Z) - Meta Navigator: Search for a Good Adaptation Policy for Few-shot
Learning [113.05118113697111]
少ないショット学習は、ラベル付きデータしか持たない新しいタスクに、以前のタスクから学んだ知識を適応させることを目的としている。
少数ショット学習に関する研究文献は、大きな多様性を示し、異なるアルゴリズムは、しばしば異なる少数ショット学習シナリオで優れている。
本稿では,メタナビゲータ(Meta Navigator)について紹介する。
論文 参考訳(メタデータ) (2021-09-13T07:20:01Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Provable Hierarchical Imitation Learning via EM [2.864550757598007]
専門家による実証から選択肢型階層政策を学習することを検討する。
Danielらによって提案されたEMアプローチを特徴付ける。
提案アルゴリズムは実パラメータの周囲のノルム球に高い確率で収束することを示す。
論文 参考訳(メタデータ) (2020-10-07T03:21:57Z) - Reinforcement Learning for Variable Selection in a Branch and Bound
Algorithm [0.10499611180329801]
現実世界のインスタンスのパターンを活用して、与えられた問題に最適化された新しいブランチ戦略をスクラッチから学習します。
本稿では,この課題に特化して設計された新しい強化学習手法であるFMSTSを提案する。
論文 参考訳(メタデータ) (2020-05-20T13:15:48Z) - Unbiased Deep Reinforcement Learning: A General Training Framework for
Existing and Future Algorithms [3.7050607140679026]
本稿では、概念的に理解可能で、強化学習のための全ての実行可能なアルゴリズムに一般化し易い、新しいトレーニングフレームワークを提案する。
我々はモンテカルロサンプリングを用いて生のデータ入力を実現し、マルコフ決定プロセスシーケンスを達成するためにバッチでそれらを訓練する。
我々は、典型的な離散的かつ連続的なシナリオを扱うために、新しいフレームワークに埋め込まれたアルゴリズムをいくつか提案する。
論文 参考訳(メタデータ) (2020-05-12T01:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。