論文の概要: The Challenges of Exploration for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2201.11861v1
- Date: Thu, 27 Jan 2022 23:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 15:43:05.461025
- Title: The Challenges of Exploration for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習における探索の課題
- Authors: Nathan Lambert, Markus Wulfmeier, William Whitney, Arunkumar Byravan,
Michael Bloesch, Vibhavari Dasagi, Tim Hertweck, Martin Riedmiller
- Abstract要約: 本稿では,情報的経験の収集と最適な行動の推測という,強化学習の2つのプロセスについて考察する。
データ収集のタスクに依存しない設定は、タスクが優先順位を分かっていないが、特に興味がある。
我々は、この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。
- 参考スコア(独自算出の注目度): 8.484491887821473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning (ORL) enablesus to separately study the two
interlinked processes of reinforcement learning: collecting informative
experience and inferring optimal behaviour. The second step has been widely
studied in the offline setting, but just as critical to data-efficient RL is
the collection of informative data. The task-agnostic setting for data
collection, where the task is not known a priori, is of particular interest due
to the possibility of collecting a single dataset and using it to solve several
downstream tasks as they arise. We investigate this setting via curiosity-based
intrinsic motivation, a family of exploration methods which encourage the agent
to explore those states or transitions it has not yet learned to model. With
Explore2Offline, we propose to evaluate the quality of collected data by
transferring the collected data and inferring policies with reward relabelling
and standard offline RL algorithms. We evaluate a wide variety of data
collection strategies, including a new exploration agent, Intrinsic Model
Predictive Control (IMPC), using this scheme and demonstrate their performance
on various tasks. We use this decoupled framework to strengthen intuitions
about exploration and the data prerequisites for effective offline RL.
- Abstract(参考訳): オフライン強化学習(ORL)は、情報的経験の収集と最適な行動の推測という、強化学習の2つの相互関連過程を別々に研究することができる。
第2のステップはオフライン環境で広く研究されているが、データ効率の良いrlにとって重要であるのは、情報収集である。
データ収集のタスクに依存しない設定は、タスクが事前に分かっていないが、単一のデータセットを収集し、それを使用してダウンストリームタスクを発生させる可能性があるため、特に関心がある。
我々は、好奇心に基づく本質的なモチベーションを通じて、エージェントがまだモデル化されていない状態や遷移を探索するように促す探索手法のファミリーを調査する。
そこで,explore2offlineでは,収集したデータを転送し,報酬リラベルと標準オフラインrlアルゴリズムを用いてポリシーを推論することにより,収集データの品質を評価する。
我々は,この手法を用いて,新たな探索エージェント,本質的モデル予測制御(impc)を含む多種多様なデータ収集戦略を評価し,様々なタスクにおける性能を実証する。
この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Semi-Supervised Offline Reinforcement Learning with Action-Free
Trajectories [37.14064734165109]
自然エージェントは、サイズ、品質、種類の異なる複数のデータソースから学習することができる。
オフライン強化学習(RL)の文脈でこれを研究し、実際に動機付けされた半教師付き環境を導入する。
論文 参考訳(メタデータ) (2022-10-12T18:22:23Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。