論文の概要: Hierarchical Adversarial Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.01969v3
- Date: Mon, 22 May 2023 01:14:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 05:35:23.964008
- Title: Hierarchical Adversarial Inverse Reinforcement Learning
- Title(参考訳): 階層型逆強化学習
- Authors: Jiayu Chen, Tian Lan, Vaneet Aggarwal
- Abstract要約: 階層的模倣学習(Hierarchical Imitation Learning, HIL)は、専門家による実証から階層的政策を学ぶために開発された。
本稿では,HILアルゴリズムを1段階のオプションフレームワークで拡張した新しいHILアルゴリズム -階層型逆強化学習(H-AIRL)を提案する。
- 参考スコア(独自算出の注目度): 44.77500987121531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation Learning (IL) has been proposed to recover the expert policy from
demonstrations. However, it would be difficult to learn a single monolithic
policy for highly-complex long-horizon tasks of which the expert policy usually
contains subtask hierarchies. Therefore, Hierarchical Imitation Learning (HIL)
has been developed to learn a hierarchical policy from expert demonstrations
through explicitly modelling the activity structure in a task with the option
framework. Existing HIL methods either overlook the causal relationship between
the subtask structure and the learned policy, or fail to learn the high-level
and low-level policy in the hierarchical framework in conjuncture, which leads
to suboptimality. In this work, we propose a novel HIL algorithm --
Hierarchical Adversarial Inverse Reinforcement Learning (H-AIRL), which extends
a state-of-the-art (SOTA) IL algorithm -- AIRL, with the one-step option
framework. Specifically, we redefine the AIRL objectives on the extended state
and action spaces, and further introduce a directed information term to the
objective function to enhance the causality between the low-level policy and
its corresponding subtask. Moreover, we propose a Variational Autoencoder (VAE)
framework for jointly training the two-level policy with these objectives.
Theoretical justifications of our algorithm design and evaluations on
challenging robotic control tasks are provided to show the superiority of our
algorithm compared with SOTA HIL baselines. The codes are available at
https://github.com/LucasCJYSDL/HierAIRL.
- Abstract(参考訳): 模倣学習(il)は、実証から専門家の方針を回復するために提案されている。
しかしながら、専門家ポリシーが通常サブタスク階層を含む、高度に複雑なロングホリゾンタスクのための単一のモノリシックなポリシーを学ぶことは困難である。
それゆえ、階層的模倣学習(hil)は、オプションフレームワークを用いてタスクのアクティビティ構造を明示的にモデル化することで、専門家のデモンストレーションから階層的ポリシーを学ぶために開発された。
既存のhilメソッドは、サブタスク構造と学習されたポリシーの因果関係を見落としているか、あるいは結合の階層的フレームワークでハイレベルで低レベルなポリシーを学ぶことができないかのどちらかである。
本研究では,新しいHILアルゴリズムである階層型逆強化学習(H-AIRL)を提案し,一段階のオプションフレームワークでSOTA (State-of-the-art) ILアルゴリズム(AIRL)を拡張した。
具体的には、拡張状態と行動空間におけるAIRLの目的を再定義し、低レベルポリシーとそれに対応するサブタスクの因果性を高めるために、目的関数に指示情報項を導入する。
さらに,2段階ポリシーをこれらの目的と共同で訓練するための変分オートエンコーダ(VAE)フレームワークを提案する。
ロボット制御の課題に対するアルゴリズム設計と評価の理論的正当性は,SOTA HILベースラインと比較してアルゴリズムの優位性を示すものである。
コードはhttps://github.com/lucascjysdl/hierairlで入手できる。
関連論文リスト
- MENTOR: Guiding Hierarchical Reinforcement Learning with Human Feedback
and Dynamic Distance Constraint [40.3872201560003]
階層的強化学習(HRL)は、タスクをサブゴールに分割し、それらを順次完了させる階層的枠組みを使用する。
現在の手法は、安定した学習プロセスを保証するための適切なサブゴールを見つけるのに苦労している。
本稿では,人間のフィードバックとダイナミック距離制約を取り入れた汎用階層型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T03:11:09Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Chain-of-Thought Predictive Control [32.30974063877643]
複雑な低レベル制御のための実証から一般化可能な政策学習について研究する。
準最適デモを利用した新しい階層型模倣学習法を提案する。
論文 参考訳(メタデータ) (2023-04-03T07:59:13Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Attaining Interpretability in Reinforcement Learning via Hierarchical
Primitive Composition [3.1078562713129765]
本稿では,従来の課題を階層構造に分解して軽減する階層型強化学習アルゴリズムを提案する。
提案手法は,6自由度マニピュレータを用いてピック・アンド・プレイス・タスクを解くことで,実際にどのように適用できるかを示す。
論文 参考訳(メタデータ) (2021-10-05T05:59:31Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。