論文の概要: Understanding the Effects of Dataset Characteristics on Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.04714v1
- Date: Mon, 8 Nov 2021 18:48:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 15:23:46.517878
- Title: Understanding the Effects of Dataset Characteristics on Offline
Reinforcement Learning
- Title(参考訳): オフライン強化学習におけるデータセット特性の影響の理解
- Authors: Kajetan Schweighofer, Markus Hofmarcher, Marius-Constantin Dinu,
Philipp Renz, Angela Bitto-Nemling, Vihang Patil, Sepp Hochreiter
- Abstract要約: オフライン強化学習は、環境と対話することなく、特定のデータセットからポリシーを学ぶことができる。
個別動作環境におけるオフラインRLアルゴリズムの性能にデータセット特性がどう影響するかを示す。
高いTQを持つデータセットの場合、Behavior Cloningは最高のオフラインRLアルゴリズムよりも優れ、あるいは同等に動作する。
- 参考スコア(独自算出の注目度): 4.819336169151637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real world, affecting the environment by a weak policy can be expensive or
very risky, therefore hampers real world applications of reinforcement
learning. Offline Reinforcement Learning (RL) can learn policies from a given
dataset without interacting with the environment. However, the dataset is the
only source of information for an Offline RL algorithm and determines the
performance of the learned policy. We still lack studies on how dataset
characteristics influence different Offline RL algorithms. Therefore, we
conducted a comprehensive empirical analysis of how dataset characteristics
effect the performance of Offline RL algorithms for discrete action
environments. A dataset is characterized by two metrics: (1) the average
dataset return measured by the Trajectory Quality (TQ) and (2) the coverage
measured by the State-Action Coverage (SACo). We found that variants of the
off-policy Deep Q-Network family require datasets with high SACo to perform
well. Algorithms that constrain the learned policy towards the given dataset
perform well for datasets with high TQ or SACo. For datasets with high TQ,
Behavior Cloning outperforms or performs similarly to the best Offline RL
algorithms.
- Abstract(参考訳): 現実の世界では、弱い政策による環境への影響は高価または非常にリスクが高いため、強化学習の現実世界の応用を阻害する。
オフライン強化学習(RL)は、環境と対話することなく、特定のデータセットからポリシーを学ぶことができる。
しかし、データセットはオフラインRLアルゴリズムの唯一の情報源であり、学習されたポリシーの性能を決定する。
データセット特性がさまざまなオフラインRLアルゴリズムに与える影響についてはまだ研究されていない。
そこで我々は,データセット特性が離散行動環境におけるオフラインrlアルゴリズムの性能に与える影響に関する包括的実証分析を行った。
データセットは、(1)トラジェクティブ品質(TQ)で測定された平均データセットリターンと、(2)ステートアクションカバレッジ(SACo)で測定されたカバレッジの2つの指標によって特徴づけられる。
オフポリティのDeep Q-Networkファミリーの亜種は、高いSACoを持つデータセットを必要とすることがわかった。
与えられたデータセットに対する学習ポリシーを制約するアルゴリズムは、高いTQまたはSACoを持つデータセットに対してうまく機能する。
高いTQを持つデータセットの場合、Behavior Cloningは、最高のオフラインRLアルゴリズムに似ています。
関連論文リスト
- Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Harnessing Mixed Offline Reinforcement Learning Datasets via Trajectory
Weighting [29.21380944341589]
我々は、最先端のオフラインRLアルゴリズムが低リターントラジェクトリによって過剰に抑制され、トラジェクトリを最大限活用できないことを示す。
この再加重サンプリング戦略は、任意のオフラインRLアルゴリズムと組み合わせることができる。
私たちは、CQL、IQL、TD3+BCがこの潜在的なポリシー改善の一部しか達成していないのに対して、これらの同じアルゴリズムがデータセットを完全に活用していることを実証的に示しています。
論文 参考訳(メタデータ) (2023-06-22T17:58:02Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Pessimism in the Face of Confounders: Provably Efficient Offline
Reinforcement Learning in Partially Observable Markov Decision Processes [105.5082667181805]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning? [86.43517734716606]
オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。
行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。
十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-04-12T08:25:34Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。