論文の概要: When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning?
- arxiv url: http://arxiv.org/abs/2204.05618v1
- Date: Tue, 12 Apr 2022 08:25:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 21:53:38.108301
- Title: When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning?
- Title(参考訳): 行動クローンよりもオフライン強化学習を優先すべきか?
- Authors: Aviral Kumar, Joey Hong, Anikait Singh, Sergey Levine
- Abstract要約: オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。
行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。
十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
- 参考スコア(独自算出の注目度): 86.43517734716606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) algorithms can acquire effective policies
by utilizing previously collected experience, without any online interaction.
It is widely understood that offline RL is able to extract good policies even
from highly suboptimal data, a scenario where imitation learning finds
suboptimal solutions that do not improve over the demonstrator that generated
the dataset. However, another common use case for practitioners is to learn
from data that resembles demonstrations. In this case, one can choose to apply
offline RL, but can also use behavioral cloning (BC) algorithms, which mimic a
subset of the dataset via supervised learning. Therefore, it seems natural to
ask: when can an offline RL method outperform BC with an equal amount of expert
data, even when BC is a natural choice? To answer this question, we
characterize the properties of environments that allow offline RL methods to
perform better than BC methods, even when only provided with expert data.
Additionally, we show that policies trained on sufficiently noisy suboptimal
data can attain better performance than even BC algorithms with expert data,
especially on long-horizon problems. We validate our theoretical results via
extensive experiments on both diagnostic and high-dimensional domains including
robotic manipulation, maze navigation, and Atari games, with a variety of data
distributions. We observe that, under specific but common conditions such as
sparse rewards or noisy data sources, modern offline RL methods can
significantly outperform BC.
- Abstract(参考訳): オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションを伴わずに、以前に収集した経験を生かして効果的なポリシーを得ることができる。
オフラインのRLは、データセットを生成するデモンストレータよりも改善されない最適解を模倣学習が見つけ出すシナリオである、高度に最適化されたデータから良いポリシーを抽出できると広く理解されている。
しかし、実践者にとってのもうひとつの一般的なユースケースは、デモに似たデータから学ぶことだ。
この場合、オフラインのRLを適用することもできるが、教師あり学習を通じてデータセットのサブセットを模倣する行動的クローニング(BC)アルゴリズムを使用することもできる。
したがって、問うのは自然に思える: オフラインのRLメソッドは、BCが自然選択である場合でも、BCと同等量の専門家データでBCより優れているのか?
この疑問に答えるために、専門家データのみを提供する場合であっても、オフラインのRLメソッドがBCメソッドよりも優れた性能を発揮する環境の特性を特徴付ける。
さらに,十分にノイズの多いサブ最適データにトレーニングされたポリシーは,特に長方形問題において,専門家データを持つbcアルゴリズムよりも優れた性能が得られることを示す。
ロボット操作,迷路ナビゲーション,atariゲームなど,さまざまなデータ分布を含む診断領域と高次元領域の両方について広範な実験を行い,理論結果を検証した。
スパース報酬やノイズの多いデータソースのような特定の条件下では、現代のオフラインRL法はBCよりも著しく優れる。
関連論文リスト
- Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Bridging Imitation and Online Reinforcement Learning: An Optimistic Tale [27.02990488317357]
不完全な専門家によるオフラインのデモンストレーションデータセットを前提として、MDPのオンライン学習パフォーマンスをブートストラップする上で、それを活用するための最善の方法は何か?
Informed Posterior Sampling-based RL (iPSRL)アルゴリズムを最初に提案する。
このアルゴリズムは非現実的であるため、オンラインRLのためのRSVIアルゴリズムと模倣学習を組み合わせたiRLSVIアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T18:16:25Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Launchpad: Learning to Schedule Using Offline and Online RL Methods [9.488752723308954]
既存のRLスケジューラは、過去のデータから学び、カスタムポリシーを改善することの重要性を見落としている。
オフライン強化学習は、オンライン環境の相互作用のない事前記録されたデータセットからポリシー最適化の見通しを示す。
これらの手法は、データ収集と安全性のコスト、特にRLの現実的な応用に関連する問題に対処する。
論文 参考訳(メタデータ) (2022-12-01T16:40:11Z) - Data-Efficient Pipeline for Offline Reinforcement Learning with Limited
Data [28.846826115837825]
オフライン強化学習は、過去のデータを活用することで、将来のパフォーマンスを改善するために使用できる。
最適なポリシを自動トレーニングし、比較し、選択し、デプロイするためのタスクとメソッドに依存しないパイプラインを導入します。
データセットが小さい場合には、大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2022-10-16T21:24:53Z) - Discriminator-Weighted Offline Imitation Learning from Suboptimal
Demonstrations [5.760034336327491]
エージェントがオンライン環境を付加せずに最適な専門家行動ポリシーを学習することを目的としたオフライン学習(IL)の課題について検討する。
専門家と非専門家のデータを区別するために,新たな識別器を導入する。
提案アルゴリズムは,ベースラインアルゴリズムよりも高いリターンと高速なトレーニング速度を実現する。
論文 参考訳(メタデータ) (2022-07-20T17:29:04Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。