論文の概要: S4RL: Surprisingly Simple Self-Supervision for Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2103.06326v1
- Date: Wed, 10 Mar 2021 20:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:42:06.673805
- Title: S4RL: Surprisingly Simple Self-Supervision for Offline Reinforcement
Learning
- Title(参考訳): S4RL: 驚くほど単純なオフライン強化学習の自己監督
- Authors: Samarth Sinha, Animesh Garg
- Abstract要約: オフライン強化学習は、インタラクションなしで大規模なデータセットからポリシーを学ぶことを提案する。
現在のアルゴリズムは、トレーニング対象のデータセットに過度に適合し、デプロイ時に環境への不適切な分散一般化を実行する。
本稿では,環境にデプロイした場合の一般化と補間に優れた値関数を学習するために,状態からのデータ拡張を利用する,驚くほど単純な自己スーパービジョンアルゴリズム(s4rl)を提案する。
- 参考スコア(独自算出の注目度): 28.947071041811586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning proposes to learn policies from large
collected datasets without interaction. These algorithms have made it possible
to learn useful skills from data that can then be transferred to the
environment, making it feasible to deploy the trained policies in real-world
settings where interactions may be costly or dangerous, such as self-driving.
However, current algorithms overfit to the dataset they are trained on and
perform poor out-of-distribution (OOD) generalization to the environment when
deployed. We propose a Surprisingly Simple Self-Supervision algorithm (S4RL),
which utilizes data augmentations from states to learn value functions that are
better at generalizing and extrapolating when deployed in the environment. We
investigate different data augmentation techniques that help learning a value
function that can extrapolate to OOD data, and how to combine data
augmentations and offline RL algorithms to learn a policy. We experimentally
show that using S4RL significantly improves the state-of-the-art on most
benchmark offline reinforcement learning tasks on popular benchmark datasets
from D4RL, despite being simple and easy to implement.
- Abstract(参考訳): オフライン強化学習は、対話なしに大規模なデータセットからポリシーを学ぶことを提案する。
これらのアルゴリズムにより、環境に転送可能なデータから有用なスキルを学ぶことができ、トレーニングされたポリシーを、自動運転車のような対話がコストがかかる、あるいは危険な現実の環境で展開することが可能になった。
しかし、現在のアルゴリズムは、トレーニング対象のデータセットにオーバーフィットし、デプロイ時に環境への悪いアウトオブディストリビューション(OOD)一般化を実行する。
本稿では,環境にデプロイした場合の一般化と補間に優れた値関数を学習するために,状態からのデータ拡張を利用する,驚くほどシンプルな自己スーパービジョンアルゴリズム(s4rl)を提案する。
我々は、OODデータに外挿可能な値関数の学習を支援する異なるデータ拡張手法と、データ拡張とオフラインRLアルゴリズムを組み合わせてポリシーを学習する方法を検討する。
S4RLを使用することにより、D4RLの一般的なベンチマークデータセット上のほとんどのベンチマークオフライン強化学習タスクにおいて、シンプルで簡単に実装できることを実験的に示しました。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - AD4RL: Autonomous Driving Benchmarks for Offline Reinforcement Learning with Value-based Dataset [2.66269503676104]
本稿では、オフライン強化学習研究のための自律走行データセットとベンチマークを提供する。
現実世界の人間のドライバーのデータセットを含む19のデータセットと、一般的なオフライン強化学習アルゴリズム7つを、現実的な3つのシナリオで提供しています。
論文 参考訳(メタデータ) (2024-04-03T03:36:35Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Causal Decision Transformer for Recommender Systems via Offline
Reinforcement Learning [23.638418776700522]
我々は、リコメンデータシステムのための因果決定変換器(CDT4Rec)という新しいモデルを提案する。
CDT4Recはオフラインの強化学習システムで、オンラインインタラクションではなくデータセットから学習することができる。
本モデルの有効性と優位性を示すため、6つの実世界のオフラインデータセットと1つのオンラインシミュレータの実験を行った。
論文 参考訳(メタデータ) (2023-04-17T00:05:52Z) - Real World Offline Reinforcement Learning with Realistic Data Source [33.7474988142367]
オフライン強化学習(ORL)は、任意の事前生成経験から学習する能力があるため、ロボット学習に非常に有望である。
現在のORLベンチマークは、ほぼ完全にシミュレーションされており、オンラインRLエージェントのリプレイバッファや、サブ最適トラジェクトリのような、探索されたデータセットを使用している。
本研究(Real-ORL)では、密接に関連するタスクの安全な操作から収集されたデータは、現実のロボット学習のためのより実用的なデータソースであると仮定する。
論文 参考訳(メタデータ) (2022-10-12T17:57:05Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Understanding the Effects of Dataset Characteristics on Offline
Reinforcement Learning [4.819336169151637]
オフライン強化学習は、環境と対話することなく、特定のデータセットからポリシーを学ぶことができる。
個別動作環境におけるオフラインRLアルゴリズムの性能にデータセット特性がどう影響するかを示す。
高いTQを持つデータセットの場合、Behavior Cloningは最高のオフラインRLアルゴリズムよりも優れ、あるいは同等に動作する。
論文 参考訳(メタデータ) (2021-11-08T18:48:43Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。