論文の概要: Generalization Guarantees for Imitation Learning
- arxiv url: http://arxiv.org/abs/2008.01913v2
- Date: Thu, 3 Dec 2020 06:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 19:04:11.657994
- Title: Generalization Guarantees for Imitation Learning
- Title(参考訳): 模倣学習の一般化保証
- Authors: Allen Z. Ren, Sushant Veer, Anirudha Majumdar
- Abstract要約: 模倣学習からの制御ポリシーは、しばしば新しい環境への一般化に失敗する。
本稿では,PAC-Bayesフレームワークを利用した模倣学習のための厳密な一般化保証を提案する。
- 参考スコア(独自算出の注目度): 6.542289202349586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Control policies from imitation learning can often fail to generalize to
novel environments due to imperfect demonstrations or the inability of
imitation learning algorithms to accurately infer the expert's policies. In
this paper, we present rigorous generalization guarantees for imitation
learning by leveraging the Probably Approximately Correct (PAC)-Bayes framework
to provide upper bounds on the expected cost of policies in novel environments.
We propose a two-stage training method where a latent policy distribution is
first embedded with multi-modal expert behavior using a conditional variational
autoencoder, and then "fine-tuned" in new training environments to explicitly
optimize the generalization bound. We demonstrate strong generalization bounds
and their tightness relative to empirical performance in simulation for (i)
grasping diverse mugs, (ii) planar pushing with visual feedback, and (iii)
vision-based indoor navigation, as well as through hardware experiments for the
two manipulation tasks.
- Abstract(参考訳): 模倣学習からの制御ポリシーは、不完全な実演や模倣学習アルゴリズムが専門家のポリシーを正確に推測できないために、しばしば新しい環境への一般化に失敗する。
本稿では,おそらくほぼ正しい(pac)-bayesフレームワークを用いて,新しい環境における政策の期待コストを上限として,模倣学習に対する厳密な一般化保証を提案する。
条件付き変分オートエンコーダを用いて, 潜在ポリシー分布をマルチモーダルエキスパート動作に組み込む2段階のトレーニング手法を提案し, 一般化境界を明示的に最適化するために, 新たなトレーニング環境において「微調整」を行う。
シミュレーションにおける経験的性能に対する強い一般化限界とその密接性を示す。
(i)多様なマグカップをつかむこと。
(二)視覚フィードバックによる平面プッシュ、及び
(iii)視覚に基づく屋内ナビゲーションと,2つの操作タスクのハードウェア実験。
関連論文リスト
- Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Robust Learning from Observation with Model Misspecification [33.92371002674386]
イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-12T07:04:06Z) - Dual Behavior Regularized Reinforcement Learning [8.883885464358737]
強化学習は、環境とのインタラクションや経験の活用を通じて、様々な複雑なタスクを実行することが示されている。
本稿では,反実的後悔最小化に基づく二元的利点に基づく行動ポリシーを提案する。
論文 参考訳(メタデータ) (2021-09-19T00:47:18Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。