論文の概要: Provably Efficient Offline Reinforcement Learning with Perturbed Data
Sources
- arxiv url: http://arxiv.org/abs/2306.08364v1
- Date: Wed, 14 Jun 2023 08:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 19:37:01.789083
- Title: Provably Efficient Offline Reinforcement Learning with Perturbed Data
Sources
- Title(参考訳): 摂動データを用いた高能率オフライン強化学習
- Authors: Chengshuai Shi, Wei Xiong, Cong Shen, Jing Yang
- Abstract要約: オフライン強化学習(RL)に関する既存の理論的研究は、主にターゲットタスクから直接サンプリングされたデータセットを考察している。
しかし実際には、データは複数の異種であるが関連する情報源から来ることが多い。
この研究は、ターゲットタスクのランダムな摂動バージョンから収集される複数のデータセットで、オフラインRLを厳格に理解することを目的としている。
- 参考スコア(独自算出の注目度): 23.000116974718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing theoretical studies on offline reinforcement learning (RL) mostly
consider a dataset sampled directly from the target task. In practice, however,
data often come from several heterogeneous but related sources. Motivated by
this gap, this work aims at rigorously understanding offline RL with multiple
datasets that are collected from randomly perturbed versions of the target task
instead of from itself. An information-theoretic lower bound is derived, which
reveals a necessary requirement on the number of involved sources in addition
to that on the number of data samples. Then, a novel HetPEVI algorithm is
proposed, which simultaneously considers the sample uncertainties from a finite
number of data samples per data source and the source uncertainties due to a
finite number of available data sources. Theoretical analyses demonstrate that
HetPEVI can solve the target task as long as the data sources collectively
provide a good data coverage. Moreover, HetPEVI is demonstrated to be optimal
up to a polynomial factor of the horizon length. Finally, the study is extended
to offline Markov games and offline robust RL, which demonstrates the
generality of the proposed designs and theoretical analyses.
- Abstract(参考訳): オフライン強化学習(rl)に関する既存の理論的研究は、ターゲットタスクから直接サンプリングされたデータセットをほとんど考慮している。
しかし実際には、データは複数の異種だが関連する情報源から来ることが多い。
このギャップによって動機づけられたこの研究は、ターゲットタスクのランダムな摂動バージョンから収集される複数のデータセットでオフラインRLを厳格に理解することを目的としている。
情報理論の下限が導出され、データサンプルの数に加えて、関係するソースの数に関する必要条件が明らかにされる。
次に,データソース毎に有限個のデータサンプルからのサンプル不確実性と,利用可能なデータソースの有限個数によるソース不確実性を同時に考慮した,新しいhetpeviアルゴリズムを提案する。
理論的解析により、HetPEVIは、データソースが優れたデータカバレッジを提供する限り、ターゲットタスクを解決できることを示した。
さらに、HetPEVIは水平長の多項式係数まで最適であることが示されている。
最後に、この研究はオフラインのマルコフゲームとオフラインのロバストなRLに拡張され、提案された設計の一般化と理論的解析を示す。
関連論文リスト
- Sparse outlier-robust PCA for multi-source data [2.3226893628361687]
そこで本研究では,重要な特徴と局所的なソース固有パターンを同時に選択する新しいPCA手法を提案する。
我々は,グローバルな局所構造的空間パターンに対応するペナルティを持つ正規化問題を開発する。
本稿では,乗算器の交互方向法による提案手法の効率的な実装について述べる。
論文 参考訳(メタデータ) (2024-07-23T08:55:03Z) - Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning [116.87367592920171]
オフライン強化学習(RL)は、固定データセットからタスク固有のポリシーを学ぶ上で有望な結果を示している。
特定のタスクのデータセットが制限されているシナリオでは、他のタスクからのデータセットでオフラインのRLを改善することが自然なアプローチである。
データ選択なしでデータセット全体を共有する不確実性に基づくマルチタスクデータ共有(MTDS)手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T08:16:52Z) - Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - Analysis and Optimization of Wireless Federated Learning with Data
Heterogeneity [72.85248553787538]
本稿では、データの不均一性を考慮した無線FLの性能解析と最適化と、無線リソース割り当てについて述べる。
ロス関数の最小化問題を、長期エネルギー消費と遅延の制約の下で定式化し、クライアントスケジューリング、リソース割り当て、ローカルトレーニングエポック数(CRE)を共同で最適化する。
実世界のデータセットの実験により、提案アルゴリズムは学習精度とエネルギー消費の点で他のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-04T04:18:01Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Quality Not Quantity: On the Interaction between Dataset Design and
Robustness of CLIP [43.7219097444333]
ここでは,CLIPにおける事前学習分布がロバスト性をいかに引き起こすかを調べるために,公開されている6つのデータソースのテストベッドを紹介する。
その結果,事前学習データの性能は分布変化によって大きく異なることがわかった。
複数のソースを組み合わせることで、必ずしもより良いモデルが得られるのではなく、最高の個々のデータソースのロバスト性を希薄にする。
論文 参考訳(メタデータ) (2022-08-10T18:24:23Z) - Source data selection for out-of-domain generalization [0.76146285961466]
ソースデータセットの貧弱な選択は、ターゲットのパフォーマンスを低下させる可能性がある。
マルチバンド理論とランダム探索に基づく2つのソース選択手法を提案する。
提案手法は, 利用可能なサンプルのランダムな選択よりも優れた再重み付けされたサブサンプルの存在を診断するものであるとみなすことができる。
論文 参考訳(メタデータ) (2022-02-04T14:37:31Z) - RLDS: an Ecosystem to Generate, Share and Use Datasets in Reinforcement
Learning [17.87592413742589]
RLDSは、シークエンシャル意思決定(Sequential Decision Making, SDM)のコンテキストでデータを記録、再生、操作、注釈付け、共有するためのエコシステムである。
RLDSは既存の研究と容易に新しいデータセットを生成するだけでなく、新しい研究を加速する。
RLDSエコシステムは、情報を失うことなくデータセットを簡単に共有し、基盤となる元のフォーマットに依存しないようにする。
論文 参考訳(メタデータ) (2021-11-04T11:48:19Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。