論文の概要: Provably Efficient Offline Reinforcement Learning with Perturbed Data
Sources
- arxiv url: http://arxiv.org/abs/2306.08364v1
- Date: Wed, 14 Jun 2023 08:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 19:37:01.789083
- Title: Provably Efficient Offline Reinforcement Learning with Perturbed Data
Sources
- Title(参考訳): 摂動データを用いた高能率オフライン強化学習
- Authors: Chengshuai Shi, Wei Xiong, Cong Shen, Jing Yang
- Abstract要約: オフライン強化学習(RL)に関する既存の理論的研究は、主にターゲットタスクから直接サンプリングされたデータセットを考察している。
しかし実際には、データは複数の異種であるが関連する情報源から来ることが多い。
この研究は、ターゲットタスクのランダムな摂動バージョンから収集される複数のデータセットで、オフラインRLを厳格に理解することを目的としている。
- 参考スコア(独自算出の注目度): 23.000116974718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing theoretical studies on offline reinforcement learning (RL) mostly
consider a dataset sampled directly from the target task. In practice, however,
data often come from several heterogeneous but related sources. Motivated by
this gap, this work aims at rigorously understanding offline RL with multiple
datasets that are collected from randomly perturbed versions of the target task
instead of from itself. An information-theoretic lower bound is derived, which
reveals a necessary requirement on the number of involved sources in addition
to that on the number of data samples. Then, a novel HetPEVI algorithm is
proposed, which simultaneously considers the sample uncertainties from a finite
number of data samples per data source and the source uncertainties due to a
finite number of available data sources. Theoretical analyses demonstrate that
HetPEVI can solve the target task as long as the data sources collectively
provide a good data coverage. Moreover, HetPEVI is demonstrated to be optimal
up to a polynomial factor of the horizon length. Finally, the study is extended
to offline Markov games and offline robust RL, which demonstrates the
generality of the proposed designs and theoretical analyses.
- Abstract(参考訳): オフライン強化学習(rl)に関する既存の理論的研究は、ターゲットタスクから直接サンプリングされたデータセットをほとんど考慮している。
しかし実際には、データは複数の異種だが関連する情報源から来ることが多い。
このギャップによって動機づけられたこの研究は、ターゲットタスクのランダムな摂動バージョンから収集される複数のデータセットでオフラインRLを厳格に理解することを目的としている。
情報理論の下限が導出され、データサンプルの数に加えて、関係するソースの数に関する必要条件が明らかにされる。
次に,データソース毎に有限個のデータサンプルからのサンプル不確実性と,利用可能なデータソースの有限個数によるソース不確実性を同時に考慮した,新しいhetpeviアルゴリズムを提案する。
理論的解析により、HetPEVIは、データソースが優れたデータカバレッジを提供する限り、ターゲットタスクを解決できることを示した。
さらに、HetPEVIは水平長の多項式係数まで最適であることが示されている。
最後に、この研究はオフラインのマルコフゲームとオフラインのロバストなRLに拡張され、提案された設計の一般化と理論的解析を示す。
関連論文リスト
- Analysis and Optimization of Wireless Federated Learning with Data
Heterogeneity [72.85248553787538]
本稿では、データの不均一性を考慮した無線FLの性能解析と最適化と、無線リソース割り当てについて述べる。
ロス関数の最小化問題を、長期エネルギー消費と遅延の制約の下で定式化し、クライアントスケジューリング、リソース割り当て、ローカルトレーニングエポック数(CRE)を共同で最適化する。
実世界のデータセットの実験により、提案アルゴリズムは学習精度とエネルギー消費の点で他のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-04T04:18:01Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Quality Not Quantity: On the Interaction between Dataset Design and
Robustness of CLIP [43.7219097444333]
ここでは,CLIPにおける事前学習分布がロバスト性をいかに引き起こすかを調べるために,公開されている6つのデータソースのテストベッドを紹介する。
その結果,事前学習データの性能は分布変化によって大きく異なることがわかった。
複数のソースを組み合わせることで、必ずしもより良いモデルが得られるのではなく、最高の個々のデータソースのロバスト性を希薄にする。
論文 参考訳(メタデータ) (2022-08-10T18:24:23Z) - Source data selection for out-of-domain generalization [0.76146285961466]
ソースデータセットの貧弱な選択は、ターゲットのパフォーマンスを低下させる可能性がある。
マルチバンド理論とランダム探索に基づく2つのソース選択手法を提案する。
提案手法は, 利用可能なサンプルのランダムな選択よりも優れた再重み付けされたサブサンプルの存在を診断するものであるとみなすことができる。
論文 参考訳(メタデータ) (2022-02-04T14:37:31Z) - RLDS: an Ecosystem to Generate, Share and Use Datasets in Reinforcement
Learning [17.87592413742589]
RLDSは、シークエンシャル意思決定(Sequential Decision Making, SDM)のコンテキストでデータを記録、再生、操作、注釈付け、共有するためのエコシステムである。
RLDSは既存の研究と容易に新しいデータセットを生成するだけでなく、新しい研究を加速する。
RLDSエコシステムは、情報を失うことなくデータセットを簡単に共有し、基盤となる元のフォーマットに依存しないようにする。
論文 参考訳(メタデータ) (2021-11-04T11:48:19Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。