論文の概要: Mitigating Covariate Shift in Imitation Learning via Offline Data
Without Great Coverage
- arxiv url: http://arxiv.org/abs/2106.03207v1
- Date: Sun, 6 Jun 2021 18:31:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:34:16.915415
- Title: Mitigating Covariate Shift in Imitation Learning via Offline Data
Without Great Coverage
- Title(参考訳): オフラインデータによる模倣学習における共変量変化の軽減
- Authors: Jonathan D. Chang, Masatoshi Uehara, Dhruv Sreenivas, Rahul Kidambi,
Wen Sun
- Abstract要約: 本稿では、エージェントがオンライン環境の相互作用を伴わずに専門家の実証者を模倣することを学習するオフラインImitation Learning(IL)について研究する。
その代わり、学習者は、潜在的に未熟な行動ポリシーから状態-動作-次の状態遷移の静的なオフラインデータセットを提示される。
オフラインデータ(MILO)からモデルベースのILを導入し,理論上も現実的にも,オフラインのIL問題を効率的に解決する。
- 参考スコア(独自算出の注目度): 27.122391441921664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies offline Imitation Learning (IL) where an agent learns to
imitate an expert demonstrator without additional online environment
interactions. Instead, the learner is presented with a static offline dataset
of state-action-next state transition triples from a potentially less
proficient behavior policy. We introduce Model-based IL from Offline data
(MILO): an algorithmic framework that utilizes the static dataset to solve the
offline IL problem efficiently both in theory and in practice. In theory, even
if the behavior policy is highly sub-optimal compared to the expert, we show
that as long as the data from the behavior policy provides sufficient coverage
on the expert state-action traces (and with no necessity for a global coverage
over the entire state-action space), MILO can provably combat the covariate
shift issue in IL. Complementing our theory results, we also demonstrate that a
practical implementation of our approach mitigates covariate shift on benchmark
MuJoCo continuous control tasks. We demonstrate that with behavior policies
whose performances are less than half of that of the expert, MILO still
successfully imitates with an extremely low number of expert state-action pairs
while traditional offline IL method such as behavior cloning (BC) fails
completely. Source code is provided at https://github.com/jdchang1/milo.
- Abstract(参考訳): 本稿では,エージェントがオンライン環境を介さずに専門家を模倣することを学ぶオフライン模倣学習(il)について述べる。
その代わり、学習者は、潜在的に未熟な行動ポリシーから状態-動作-次の状態遷移の静的なオフラインデータセットを提示される。
オフラインデータ(MILO: Model-based IL from Offline data)は,静的データセットを用いて,理論上も現実的にも,オフラインのIL問題を解決するアルゴリズムフレームワークである。
理論的には, 行動方針が専門家と比較して極めて準最適であったとしても, 行動方針のデータが専門家の行動トレースを十分に網羅している限り(かつ, 国家行動空間全体をグローバルに網羅する必要はない)、MILOはILの共変量シフト問題に確実に対処できることを示す。
また,提案手法の実践的実装により,ベンチマークMuJoCo連続制御タスクにおける共変量シフトが軽減されることを示す。
専門家の半数以下である行動ポリシーでは、MILOは依然として極めて低い数の専門家状態-アクションペアを模倣し、従来のオフラインIL手法である行動クローニング(BC)は完全に失敗することを示した。
ソースコードはhttps://github.com/jdchang1/miloで提供されている。
関連論文リスト
- Is Behavior Cloning All You Need? Understanding Horizon in Imitation Learning [26.53136644321385]
シミュレーション学習(Imitation Learning, IL)は、実演から学ぶことによって、連続的な意思決定タスクにおいて専門家の行動を模倣することを目的としている。
オンライン行動クローニング(英語版) (BC) は、問題の地平線に好ましくない二次的依存を伴うサンプルの複雑さを引き起こすと考えられている。
累積ペイオフの範囲が制御されるたびに、オフラインILにおいて水平非依存のサンプル複雑性を実現することができることを示す。
論文 参考訳(メタデータ) (2024-07-20T23:31:56Z) - How to Leverage Diverse Demonstrations in Offline Imitation Learning [39.24627312800116]
不完全な実演を伴うオフライン模倣学習(IL)は、専門家データの不足により注目を集めている。
本稿では, 結果の状態に基づいて正の挙動を識別する, 単純で効果的なデータ選択手法を提案する。
次に、専門家と選択したデータを正しく活用できる軽量な行動クローニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-05-24T04:56:39Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。
非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。
提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-05T03:35:11Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。