論文の概要: Adversarial Option-Aware Hierarchical Imitation Learning
- arxiv url: http://arxiv.org/abs/2106.05530v2
- Date: Fri, 11 Jun 2021 05:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:37:50.193727
- Title: Adversarial Option-Aware Hierarchical Imitation Learning
- Title(参考訳): 逆選択型階層的模倣学習
- Authors: Mingxuan Jing, Wenbing Huang, Fuchun Sun, Xiaojian Ma, Tao Kong,
Chuang Gan, Lei Li
- Abstract要約: 提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
- 参考スコア(独自算出の注目度): 89.92994158193237
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: It has been a challenge to learning skills for an agent from long-horizon
unannotated demonstrations. Existing approaches like Hierarchical Imitation
Learning(HIL) are prone to compounding errors or suboptimal solutions. In this
paper, we propose Option-GAIL, a novel method to learn skills at long horizon.
The key idea of Option-GAIL is modeling the task hierarchy by options and train
the policy via generative adversarial optimization. In particular, we propose
an Expectation-Maximization(EM)-style algorithm: an E-step that samples the
options of expert conditioned on the current learned policy, and an M-step that
updates the low- and high-level policies of agent simultaneously to minimize
the newly proposed option-occupancy measurement between the expert and the
agent. We theoretically prove the convergence of the proposed algorithm.
Experiments show that Option-GAIL outperforms other counterparts consistently
across a variety of tasks.
- Abstract(参考訳): 長期にわたる無注釈のデモンストレーションからエージェントのスキルを学ぶことは困難である。
階層的模倣学習(hil)のような既存のアプローチは、エラーや副最適解を複雑化する傾向がある。
本稿では,長距離学習のための新しい手法であるOption-GAILを提案する。
Option-GAILのキーとなるアイデアは、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーをトレーニングすることだ。
特に,期待最大化(em)方式のアルゴリズムを提案する。e-stepは現在の学習方針に基づく専門家の選択肢をサンプリングし,m-stepはエージェントの低レベルおよび高レベルポリシーを同時に更新し,新たに提案されたエキスパートとエージェント間のオプション占有率測定を最小化する。
提案するアルゴリズムの収束を理論的に証明する。
実験によると、option-gailはさまざまなタスクにおいて、他のオプションよりも優れています。
関連論文リスト
- A Provably Efficient Option-Based Algorithm for both High-Level and Low-Level Learning [54.20447310988282]
異なる(高低と高低の)時間的抽象化において,後悔最小化アルゴリズムのメタアルゴリズムを交互に提案する。
高いレベルでは、半マルコフ決定プロセス(SMDP)として、固定された低レベルポリシーで、低いレベルでは内部オプションポリシーを固定された高レベルポリシーで学習する。
論文 参考訳(メタデータ) (2024-06-21T13:17:33Z) - A Unified Algorithm Framework for Unsupervised Discovery of Skills based
on Determinantal Point Process [53.86223883060367]
教師なしオプション発見における多様性とカバレッジは、実際には同じ数学的枠組みの下で統一可能であることを示す。
提案アルゴリズムであるODPPは,MujocoとAtariで作成した課題に対して,広範囲に評価されている。
論文 参考訳(メタデータ) (2022-12-01T01:40:03Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - The Paradox of Choice: Using Attention in Hierarchical Reinforcement
Learning [59.777127897688594]
サブゴールオプションのさらなる学習に使用できる、オンラインでモデルフリーなアルゴリズムを提案する。
訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。
論文 参考訳(メタデータ) (2022-01-24T13:18:02Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Flexible Option Learning [69.78645585943592]
我々は、深層強化学習の文脈において、オプション内学習を再考し、拡張する。
我々は,多種多様な領域における性能とデータ効率の大幅な向上を得た。
論文 参考訳(メタデータ) (2021-12-06T15:07:48Z) - Online Baum-Welch algorithm for Hierarchical Imitation Learning [7.271970309320002]
オプションフレームワークで階層的な模倣学習を行うためのオンラインアルゴリズムを提案する。
このアプローチは離散環境と連続環境の両方でうまく機能することを示す。
論文 参考訳(メタデータ) (2021-03-22T22:03:25Z) - Learning Diverse Options via InfoMax Termination Critic [0.0]
我々は、強化学習において、再利用可能な時間的拡張行動や選択肢を自律的に学習する問題を考察する。
近年の相互情報に基づくスキル学習の成功に触発されて、より多様な選択肢がより再利用できるという仮説を立てた。
オプションと対応する状態遷移の間のMIを最大化することにより、オプションの勾配を学習する方法を提案する。
論文 参考訳(メタデータ) (2020-10-06T14:21:05Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。