論文の概要: Curriculum Offline Imitation Learning
- arxiv url: http://arxiv.org/abs/2111.02056v1
- Date: Wed, 3 Nov 2021 08:02:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 12:45:19.513111
- Title: Curriculum Offline Imitation Learning
- Title(参考訳): カリキュラムオフライン模倣学習
- Authors: Minghuan Liu, Hanye Zhao, Zhengyu Yang, Jian Shen, Weinan Zhang, Li
Zhao, Tie-Yan Liu
- Abstract要約: オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
- 参考スコア(独自算出の注目度): 72.1015201041391
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Offline reinforcement learning (RL) tasks require the agent to learn from a
pre-collected dataset with no further interactions with the environment.
Despite the potential to surpass the behavioral policies, RL-based methods are
generally impractical due to the training instability and bootstrapping the
extrapolation errors, which always require careful hyperparameter tuning via
online evaluation. In contrast, offline imitation learning (IL) has no such
issues since it learns the policy directly without estimating the value
function by bootstrapping. However, IL is usually limited in the capability of
the behavioral policy and tends to learn a mediocre behavior from the dataset
collected by the mixture of policies. In this paper, we aim to take advantage
of IL but mitigate such a drawback. Observing that behavior cloning is able to
imitate neighboring policies with less data, we propose \textit{Curriculum
Offline Imitation Learning (COIL)}, which utilizes an experience picking
strategy for imitating from adaptive neighboring policies with a higher return,
and improves the current policy along curriculum stages. On continuous control
benchmarks, we compare COIL against both imitation-based and RL-based methods,
showing that it not only avoids just learning a mediocre behavior on mixed
datasets but is also even competitive with state-of-the-art offline RL methods.
- Abstract(参考訳): オフライン強化学習(rl)タスクでは、エージェントは事前に収集したデータセットから、環境とのさらなるインタラクションなしに学習する必要がある。
行動方針を超越する可能性にもかかわらず、RLベースの手法は、トレーニングの不安定性と外挿エラーのブートストラップのため、一般的には実用的ではない。
対照的に、オフライン模倣学習(il)はブートストラップによって価値関数を見積もることなくポリシーを直接学習するため、そのような問題はない。
しかし、ilは通常、行動ポリシーの能力に制限があり、ポリシーの混合によって収集されたデータセットから中途半端な振る舞いを学ぶ傾向がある。
本稿では,ILを利用するが,そのような欠点を緩和する。
行動のクローン化は, より少ないデータで近隣の政策を模倣することができることを観察し, 適応的な近隣の政策から高いリターンで模倣する経験的選択戦略を生かし, カリキュラムの段階に沿って現在の政策を改良する「textit{Curriculum Offline Imitation Learning (COIL)」を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
関連論文リスト
- Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - A Policy-Guided Imitation Approach for Offline Reinforcement Learning [9.195775740684248]
政策誘導型オフラインRL(textttPOR)を紹介する。
textttPORは、オフラインRLの標準ベンチマークであるD4RLで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-10-15T15:54:28Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - POPO: Pessimistic Offline Policy Optimization [6.122342691982727]
オフポリシーRLメソッドが、バリュー関数ビューからオフライン設定で学習できない理由について検討する。
悲観的オフライン政策最適化(POPO)を提案する。これは悲観的価値関数を学習し、強い政策を得る。
POPOは驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-12-26T06:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。