論文の概要: Augmenting GAIL with BC for sample efficient imitation learning
- arxiv url: http://arxiv.org/abs/2001.07798v4
- Date: Mon, 9 Nov 2020 20:04:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 23:35:15.651648
- Title: Augmenting GAIL with BC for sample efficient imitation learning
- Title(参考訳): BCを用いたGAILの効率的な模擬学習
- Authors: Rohit Jena, Changliu Liu, Katia Sycara
- Abstract要約: 本稿では,行動クローニングとGAILを組み合わせた簡易かつエレガントな手法を提案する。
我々のアルゴリズムは実装が非常に簡単であり、異なるポリシー勾配アルゴリズムと統合する。
本稿では,低次元制御タスク,グリッドワールド,高次元画像ベースタスクにおけるアルゴリズムの有効性を示す。
- 参考スコア(独自算出の注目度): 5.199454801210509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning is the problem of recovering an expert policy without
access to a reward signal. Behavior cloning and GAIL are two widely used
methods for performing imitation learning. Behavior cloning converges in a few
iterations but doesn't achieve peak performance due to its inherent iid
assumption about the state-action distribution. GAIL addresses the issue by
accounting for the temporal dependencies when performing a state distribution
matching between the agent and the expert. Although GAIL is sample efficient in
the number of expert trajectories required, it is still not very sample
efficient in terms of the environment interactions needed for convergence of
the policy. Given the complementary benefits of both methods, we present a
simple and elegant method to combine both methods to enable stable and sample
efficient learning. Our algorithm is very simple to implement and integrates
with different policy gradient algorithms. We demonstrate the effectiveness of
the algorithm in low dimensional control tasks, gridworlds and in high
dimensional image-based tasks.
- Abstract(参考訳): 模倣学習は、報酬信号にアクセスせずに専門家ポリシーを回復する問題である。
行動クローニングとGAILは模倣学習を行うために広く使われている方法である。
振舞いのクローンは数イテレーションで収束するが、状態-振舞いの分布に関する本質的にのiid仮定のため、ピーク性能を達成できない。
GAILはエージェントと専門家の間の状態分散マッチングを実行する際に、時間的依存関係を考慮し、この問題に対処する。
GAILは専門家の軌道数ではサンプリング効率がよいが、政策の収束に必要な環境相互作用の観点からは、まだあまりサンプリング効率が良くない。
両手法の相補的な利点を考慮し,安定学習とサンプル学習を両手法を組み合わせるための簡易かつエレガントな手法を提案する。
我々のアルゴリズムは実装が非常に簡単であり、異なるポリシー勾配アルゴリズムと統合する。
本研究では,低次元制御タスクやグリッドワールド,高次元画像ベースタスクにおけるアルゴリズムの有効性を示す。
関連論文リスト
- Sample Efficient Reinforcement Learning by Automatically Learning to
Compose Subtasks [3.1594865504808944]
サブタスクを表すラベルのセットを与えられた場合、サンプル効率のために報酬関数を自動的に構成するRLアルゴリズムを提案する。
我々は,様々なスパース・リワード環境におけるアルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2024-01-25T15:06:40Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Okapi: Generalising Better by Making Statistical Matches Match [7.392460712829188]
オカピは、オンライン統計マッチングに基づく頑健な半教師あり学習のためのシンプルで効率的で汎用的な方法である。
提案手法では, 最寄りのマッチング手法を用いて, 整合性損失に対するクロスドメインビューを生成する。
経験的リスクの最小化を改善するために、余分な遅延のないデータを活用することは実際に可能であることを示す。
論文 参考訳(メタデータ) (2022-11-07T12:41:17Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。