論文の概要: Hierarchical Variational Imitation Learning of Control Programs
- arxiv url: http://arxiv.org/abs/1912.12612v1
- Date: Sun, 29 Dec 2019 08:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 07:38:16.475481
- Title: Hierarchical Variational Imitation Learning of Control Programs
- Title(参考訳): 制御プログラムの階層的変動模倣学習
- Authors: Roy Fox, Richard Shin, William Paul, Yitian Zou, Dawn Song, Ken
Goldberg, Pieter Abbeel, Ion Stoica
- Abstract要約: パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
- 参考スコア(独自算出の注目度): 131.7671843857375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents can learn by imitating teacher demonstrations of the
intended behavior. Hierarchical control policies are ubiquitously useful for
such learning, having the potential to break down structured tasks into simpler
sub-tasks, thereby improving data efficiency and generalization. In this paper,
we propose a variational inference method for imitation learning of a control
policy represented by parametrized hierarchical procedures (PHP), a
program-like structure in which procedures can invoke sub-procedures to perform
sub-tasks. Our method discovers the hierarchical structure in a dataset of
observation-action traces of teacher demonstrations, by learning an approximate
posterior distribution over the latent sequence of procedure calls and
terminations. Samples from this learned distribution then guide the training of
the hierarchical control policy. We identify and demonstrate a novel benefit of
variational inference in the context of hierarchical imitation learning: in
decomposing the policy into simpler procedures, inference can leverage acausal
information that is unused by other methods. Training PHP with variational
inference outperforms LSTM baselines in terms of data efficiency and
generalization, requiring less than half as much data to achieve a 24% error
rate in executing the bubble sort algorithm, and to achieve no error in
executing Karel programs.
- Abstract(参考訳): 自律エージェントは、意図した行動の教師のデモンストレーションを模倣することで学習することができる。
階層制御ポリシは、構造化されたタスクを単純なサブタスクに分解する可能性を持ち、データ効率と一般化を改善する。
本稿では、サブプロデューサを起動してサブタスクを実行するプログラムのような構造である、パラメータ化された階層的プロシージャ(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
この学習した分布からのサンプルは、階層的制御ポリシーのトレーニングをガイドする。
我々は、階層的模倣学習の文脈において、変分推論の新たな利点を特定し、実証する: ポリシーをより単純な手順に分解することで、推論は、他の手法で使われていない因果情報を利用することができる。
データ効率と一般化の点でLSTMベースラインを上回り、バブルソートアルゴリズムの実行時に24%のエラー率を達成するために半分以下のデータを必要とし、カレルプログラムの実行時にエラーを発生させない。
関連論文リスト
- Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - On minimal variations for unsupervised representation learning [19.055611167696238]
教師なし表現学習は、様々な下流タスクを解決するために、生データを効率的に記述することを目的としている。
教師なし表現学習の原則として最小限のバリエーションを考案することは、自己教師付き学習アルゴリズムの実践的ガイドラインを改善する道を開く。
論文 参考訳(メタデータ) (2022-11-07T18:57:20Z) - Robust Task Representations for Offline Meta-Reinforcement Learning via
Contrastive Learning [21.59254848913971]
オフラインメタ強化学習は、オフラインデータから学習して新しいタスクに適応する強化学習パラダイムである。
本稿では,学習・テストにおける行動方針の分布に頑健なタスク表現のための対照的な学習フレームワークを提案する。
様々なオフラインメタ強化学習ベンチマークの実験は,従来の手法よりも提案手法の利点を実証している。
論文 参考訳(メタデータ) (2022-06-21T14:46:47Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Learning to Synthesize Programs as Interpretable and Generalizable
Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。
実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-31T07:03:06Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - META-Learning Eligibility Traces for More Sample Efficient Temporal
Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。
この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。
提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文 参考訳(メタデータ) (2020-06-16T03:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。