論文の概要: Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.19346v1
- Date: Tue, 30 Apr 2024 08:16:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 14:54:34.026676
- Title: Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習におけるマルチタスクデータ共有のための悲観的価値反復
- Authors: Chenjia Bai, Lingxiao Wang, Jianye Hao, Zhuoran Yang, Bin Zhao, Zhen Wang, Xuelong Li,
- Abstract要約: オフライン強化学習(RL)は、固定データセットからタスク固有のポリシーを学ぶ上で有望な結果を示している。
特定のタスクのデータセットが制限されているシナリオでは、他のタスクからのデータセットでオフラインのRLを改善することが自然なアプローチである。
データ選択なしでデータセット全体を共有する不確実性に基づくマルチタスクデータ共有(MTDS)手法を提案する。
- 参考スコア(独自算出の注目度): 116.87367592920171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning (RL) has shown promising results in learning a task-specific policy from a fixed dataset. However, successful offline RL often relies heavily on the coverage and quality of the given dataset. In scenarios where the dataset for a specific task is limited, a natural approach is to improve offline RL with datasets from other tasks, namely, to conduct Multi-Task Data Sharing (MTDS). Nevertheless, directly sharing datasets from other tasks exacerbates the distribution shift in offline RL. In this paper, we propose an uncertainty-based MTDS approach that shares the entire dataset without data selection. Given ensemble-based uncertainty quantification, we perform pessimistic value iteration on the shared offline dataset, which provides a unified framework for single- and multi-task offline RL. We further provide theoretical analysis, which shows that the optimality gap of our method is only related to the expected data coverage of the shared dataset, thus resolving the distribution shift issue in data sharing. Empirically, we release an MTDS benchmark and collect datasets from three challenging domains. The experimental results show our algorithm outperforms the previous state-of-the-art methods in challenging MTDS problems. See https://github.com/Baichenjia/UTDS for the datasets and code.
- Abstract(参考訳): オフライン強化学習(RL)は、固定データセットからタスク固有のポリシーを学ぶ上で有望な結果を示している。
しかし、成功したオフラインRLは、しばしば与えられたデータセットのカバレッジと品質に大きく依存する。
特定のタスクのデータセットが制限されている場合、自然なアプローチは、オフラインのRLを他のタスク、すなわち、マルチタスクデータ共有(MTDS)の実行で改善することです。
それでも、他のタスクから直接データセットを共有することは、オフラインのRLにおける分散シフトを悪化させる。
本稿では,データ選択なしでデータセット全体を共有する不確実性に基づくMTDS手法を提案する。
アンサンブルに基づく不確実性定量化を前提として、共有オフラインデータセット上で悲観的な値反復を行い、単一およびマルチタスクオフラインRLのための統一的なフレームワークを提供する。
さらに,提案手法の最適性ギャップが,共有データセットの予測データカバレッジにのみ関係していることを示し,データ共有における分散シフト問題を解消する理論解析を行った。
実証的に、MTDSベンチマークをリリースし、3つの挑戦的なドメインからデータセットを収集します。
実験の結果,MTDS問題に挑戦する上で,従来の最先端手法よりも優れた性能を示した。
データセットとコードについてはhttps://github.com/Baichenjia/UTDSを参照してください。
関連論文リスト
- Domain Adaptation for Offline Reinforcement Learning with Limited Samples [2.3674123304219816]
オフライン強化学習は、静的ターゲットデータセットから効果的なポリシーを学ぶ。
最先端(SOTA)のオフラインRLアルゴリズムが有望であるにもかかわらず、ターゲットデータセットの品質に強く依存している。
本稿では,各データセットに割り当てられた重みがオフラインRLの性能に与える影響を理論的・実験的に検討した最初のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T05:38:48Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Understanding the Effects of Dataset Characteristics on Offline
Reinforcement Learning [4.819336169151637]
オフライン強化学習は、環境と対話することなく、特定のデータセットからポリシーを学ぶことができる。
個別動作環境におけるオフラインRLアルゴリズムの性能にデータセット特性がどう影響するかを示す。
高いTQを持つデータセットの場合、Behavior Cloningは最高のオフラインRLアルゴリズムよりも優れ、あるいは同等に動作する。
論文 参考訳(メタデータ) (2021-11-08T18:48:43Z) - Semi-supervised Multi-task Learning for Semantics and Depth [88.77716991603252]
MTL(Multi-Task Learning)は、関連するタスク間で表現を共有することで、モデル一般化を強化することを目的としている。
そこで本研究では,異なるデータセットから利用可能な監視信号を活用するために,半教師付きマルチタスク学習(MTL)手法を提案する。
本稿では,データセット間の整合性の問題を軽減するために,様々なアライメントの定式化を施したドメイン認識識別器構造を提案する。
論文 参考訳(メタデータ) (2021-10-14T07:43:39Z) - Conservative Data Sharing for Multi-Task Offline Reinforcement Learning [119.85598717477016]
オフラインRLの自然なユースケースは、さまざまなシナリオで収集された大量のデータをプールして、さまざまなタスクを解決できるような設定にある、と私たちは主張する。
タスク固有のデータに対する改善に基づいてデータをルーティングするマルチタスクオフラインRLにおけるデータ共有手法を開発した。
論文 参考訳(メタデータ) (2021-09-16T17:34:06Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。