論文の概要: Conservative Data Sharing for Multi-Task Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.08128v1
- Date: Thu, 16 Sep 2021 17:34:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 14:07:57.377113
- Title: Conservative Data Sharing for Multi-Task Offline Reinforcement Learning
- Title(参考訳): マルチタスクオフライン強化学習のための保守的データ共有
- Authors: Tianhe Yu, Aviral Kumar, Yevgen Chebotar, Karol Hausman, Sergey
Levine, Chelsea Finn
- Abstract要約: オフラインRLの自然なユースケースは、さまざまなシナリオで収集された大量のデータをプールして、さまざまなタスクを解決できるような設定にある、と私たちは主張する。
タスク固有のデータに対する改善に基づいてデータをルーティングするマルチタスクオフラインRLにおけるデータ共有手法を開発した。
- 参考スコア(独自算出の注目度): 119.85598717477016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) algorithms have shown promising results
in domains where abundant pre-collected data is available. However, prior
methods focus on solving individual problems from scratch with an offline
dataset without considering how an offline RL agent can acquire multiple
skills. We argue that a natural use case of offline RL is in settings where we
can pool large amounts of data collected in various scenarios for solving
different tasks, and utilize all of this data to learn behaviors for all the
tasks more effectively rather than training each one in isolation. However,
sharing data across all tasks in multi-task offline RL performs surprisingly
poorly in practice. Thorough empirical analysis, we find that sharing data can
actually exacerbate the distributional shift between the learned policy and the
dataset, which in turn can lead to divergence of the learned policy and poor
performance. To address this challenge, we develop a simple technique for
data-sharing in multi-task offline RL that routes data based on the improvement
over the task-specific data. We call this approach conservative data sharing
(CDS), and it can be applied with multiple single-task offline RL methods. On a
range of challenging multi-task locomotion, navigation, and vision-based
robotic manipulation problems, CDS achieves the best or comparable performance
compared to prior offline multi-task RL methods and previous data sharing
approaches.
- Abstract(参考訳): オフライン強化学習(RL)アルゴリズムは、豊富な事前収集データが存在する領域で有望な結果を示している。
しかしながら、従来の方法はオフラインのrlエージェントが複数のスキルを習得する方法を考慮せずに、オフラインデータセットで個々の問題をスクラッチから解決することに焦点を当てている。
オフラインRLの自然なユースケースは、さまざまなシナリオで収集された大量のデータをさまざまなタスクの解決に利用し、これらのデータを利用して各タスクを個別にトレーニングするのではなく、すべてのタスクの振る舞いを効果的に学習する、という設定にある、と我々は主張する。
しかし、マルチタスクオフラインRLにおける全タスク間でのデータ共有は、実際驚くほど不十分である。
徹底的な実証分析では、データ共有は学習したポリシーとデータセットの分散的な変化を悪化させ、結果として学習したポリシーと低いパフォーマンスの相違を引き起こす可能性がある。
この課題に対処するために、タスク固有のデータの改善に基づいてデータをルーティングするマルチタスクオフラインRLにおけるデータ共有の簡単な手法を開発した。
我々はこれを保守的データ共有(CDS)と呼び、複数の単一タスクのオフラインRL手法で適用することができる。
マルチタスクのロコモーション、ナビゲーション、視覚に基づくロボット操作の問題に挑戦する範囲において、CDSは以前のオフラインマルチタスクRL法や以前のデータ共有アプローチと比較して、最高または同等のパフォーマンスを達成する。
関連論文リスト
- Skills Regularized Task Decomposition for Multi-task Offline Reinforcement Learning [11.790581500542439]
多様なオフラインデータセットを持つ強化学習(RL)は、複数のタスクの関係を活用する利点がある。
異なる品質の行動ポリシーによって生成される異種データセットに対して,スキルベースのマルチタスクRL手法を提案する。
我々のマルチタスクオフラインRLアプローチは、異なる品質データセットの混合構成に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-28T07:36:20Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning [116.87367592920171]
オフライン強化学習(RL)は、固定データセットからタスク固有のポリシーを学ぶ上で有望な結果を示している。
特定のタスクのデータセットが制限されているシナリオでは、他のタスクからのデータセットでオフラインのRLを改善することが自然なアプローチである。
データ選択なしでデータセット全体を共有する不確実性に基づくマルチタスクデータ共有(MTDS)手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T08:16:52Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Launchpad: Learning to Schedule Using Offline and Online RL Methods [9.488752723308954]
既存のRLスケジューラは、過去のデータから学び、カスタムポリシーを改善することの重要性を見落としている。
オフライン強化学習は、オンライン環境の相互作用のない事前記録されたデータセットからポリシー最適化の見通しを示す。
これらの手法は、データ収集と安全性のコスト、特にRLの現実的な応用に関連する問題に対処する。
論文 参考訳(メタデータ) (2022-12-01T16:40:11Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。