論文の概要: Planning for Sample Efficient Imitation Learning
- arxiv url: http://arxiv.org/abs/2210.09598v1
- Date: Tue, 18 Oct 2022 05:19:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 13:39:05.065668
- Title: Planning for Sample Efficient Imitation Learning
- Title(参考訳): サンプル効率的な模倣学習の計画
- Authors: Zhao-Heng Yin, Weirui Ye, Qifeng Chen, Yang Gao
- Abstract要約: 現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
- 参考スコア(独自算出の注目度): 52.44953015011569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning is a class of promising policy learning algorithms that is
free from many practical issues with reinforcement learning, such as the reward
design issue and the exploration hardness. However, the current imitation
algorithm struggles to achieve both high performance and high in-environment
sample efficiency simultaneously. Behavioral Cloning (BC) does not need
in-environment interactions, but it suffers from the covariate shift problem
which harms its performance. Adversarial Imitation Learning (AIL) turns
imitation learning into a distribution matching problem. It can achieve better
performance on some tasks but it requires a large number of in-environment
interactions. Inspired by the recent success of EfficientZero in RL, we propose
EfficientImitate (EI), a planning-based imitation learning method that can
achieve high in-environment sample efficiency and performance simultaneously.
Our algorithmic contribution in this paper is two-fold. First, we extend AIL
into the MCTS-based RL. Second, we show the seemingly incompatible two classes
of imitation algorithms (BC and AIL) can be naturally unified under our
framework, enjoying the benefits of both. We benchmark our method not only on
the state-based DeepMind Control Suite, but also on the image version which
many previous works find highly challenging. Experimental results show that EI
achieves state-of-the-art results in performance and sample efficiency. EI
shows over 4x gain in performance in the limited sample setting on state-based
and image-based tasks and can solve challenging problems like Humanoid, where
previous methods fail with small amount of interactions. Our code is available
at https://github.com/zhaohengyin/EfficientImitate.
- Abstract(参考訳): 模倣学習(imitation learning)は、報酬設計問題や探索困難性といった強化学習に関する多くの実用的な問題から解放された、有望な政策学習アルゴリズムのクラスである。
しかし、現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
行動クローニング(bc)は環境内相互作用を必要としないが、その性能を損なう共変量シフト問題に苦しむ。
Adversarial Imitation Learning (AIL)は、模倣学習を分布マッチング問題に変換する。
いくつかのタスクではパフォーマンスが向上するが、環境内相互作用が多数必要である。
近年RLにおけるEfficientZeroの成功に触発されて,高環境試料効率と性能を同時に達成できる計画型模倣学習法であるEfficientImitate (EI)を提案する。
この論文におけるアルゴリズム的貢献は2つある。
まず AIL を MCTS ベースの RL に拡張する。
第二に、一見互換性のない2種類の模倣アルゴリズム(BCとAIL)は、我々のフレームワークの下で自然に統一され、両方の利点を享受できることを示す。
我々は、ステートベースのDeepMind Control Suiteだけでなく、以前の多くの研究で非常に困難な画像バージョンにもベンチマークを行った。
実験結果から,EIは性能と試料効率の両立を図った。
EIは、状態ベースのタスクと画像ベースのタスクの限定的なサンプル設定でパフォーマンスが4倍向上し、以前のメソッドが少量のインタラクションで失敗するHumanoidのような課題を解決することができる。
私たちのコードはhttps://github.com/zhaohengyin/EfficientImitateで利用可能です。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Sample Efficient Reinforcement Learning by Automatically Learning to
Compose Subtasks [3.1594865504808944]
サブタスクを表すラベルのセットを与えられた場合、サンプル効率のために報酬関数を自動的に構成するRLアルゴリズムを提案する。
我々は,様々なスパース・リワード環境におけるアルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2024-01-25T15:06:40Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Sample Efficient Imitation Learning via Reward Function Trained in
Advance [2.66512000865131]
イミテーションラーニング(IL)は、実証から専門家の行動を模倣することを学ぶフレームワークである。
本稿では,逆強化学習の新たな手法を導入することで,サンプル効率の向上に尽力する。
論文 参考訳(メタデータ) (2021-11-23T08:06:09Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - DERAIL: Diagnostic Environments for Reward And Imitation Learning [9.099589602551573]
アルゴリズム性能の個々の面を個別にテストする一連の診断タスクを開発する。
その結果,アルゴリズムの性能は実装の詳細に非常に敏感であることが確認された。
ケーススタディは、スイートが設計上の欠陥を特定し、候補ソリューションを迅速に評価する方法を示している。
論文 参考訳(メタデータ) (2020-12-02T18:07:09Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z) - Augmenting GAIL with BC for sample efficient imitation learning [5.199454801210509]
本稿では,行動クローニングとGAILを組み合わせた簡易かつエレガントな手法を提案する。
我々のアルゴリズムは実装が非常に簡単であり、異なるポリシー勾配アルゴリズムと統合する。
本稿では,低次元制御タスク,グリッドワールド,高次元画像ベースタスクにおけるアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2020-01-21T22:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。