論文の概要: Understanding the Effects of Dataset Characteristics on Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.04714v1
- Date: Mon, 8 Nov 2021 18:48:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 15:23:46.517878
- Title: Understanding the Effects of Dataset Characteristics on Offline
Reinforcement Learning
- Title(参考訳): オフライン強化学習におけるデータセット特性の影響の理解
- Authors: Kajetan Schweighofer, Markus Hofmarcher, Marius-Constantin Dinu,
Philipp Renz, Angela Bitto-Nemling, Vihang Patil, Sepp Hochreiter
- Abstract要約: オフライン強化学習は、環境と対話することなく、特定のデータセットからポリシーを学ぶことができる。
個別動作環境におけるオフラインRLアルゴリズムの性能にデータセット特性がどう影響するかを示す。
高いTQを持つデータセットの場合、Behavior Cloningは最高のオフラインRLアルゴリズムよりも優れ、あるいは同等に動作する。
- 参考スコア(独自算出の注目度): 4.819336169151637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real world, affecting the environment by a weak policy can be expensive or
very risky, therefore hampers real world applications of reinforcement
learning. Offline Reinforcement Learning (RL) can learn policies from a given
dataset without interacting with the environment. However, the dataset is the
only source of information for an Offline RL algorithm and determines the
performance of the learned policy. We still lack studies on how dataset
characteristics influence different Offline RL algorithms. Therefore, we
conducted a comprehensive empirical analysis of how dataset characteristics
effect the performance of Offline RL algorithms for discrete action
environments. A dataset is characterized by two metrics: (1) the average
dataset return measured by the Trajectory Quality (TQ) and (2) the coverage
measured by the State-Action Coverage (SACo). We found that variants of the
off-policy Deep Q-Network family require datasets with high SACo to perform
well. Algorithms that constrain the learned policy towards the given dataset
perform well for datasets with high TQ or SACo. For datasets with high TQ,
Behavior Cloning outperforms or performs similarly to the best Offline RL
algorithms.
- Abstract(参考訳): 現実の世界では、弱い政策による環境への影響は高価または非常にリスクが高いため、強化学習の現実世界の応用を阻害する。
オフライン強化学習(RL)は、環境と対話することなく、特定のデータセットからポリシーを学ぶことができる。
しかし、データセットはオフラインRLアルゴリズムの唯一の情報源であり、学習されたポリシーの性能を決定する。
データセット特性がさまざまなオフラインRLアルゴリズムに与える影響についてはまだ研究されていない。
そこで我々は,データセット特性が離散行動環境におけるオフラインrlアルゴリズムの性能に与える影響に関する包括的実証分析を行った。
データセットは、(1)トラジェクティブ品質(TQ)で測定された平均データセットリターンと、(2)ステートアクションカバレッジ(SACo)で測定されたカバレッジの2つの指標によって特徴づけられる。
オフポリティのDeep Q-Networkファミリーの亜種は、高いSACoを持つデータセットを必要とすることがわかった。
与えられたデータセットに対する学習ポリシーを制約するアルゴリズムは、高いTQまたはSACoを持つデータセットに対してうまく機能する。
高いTQを持つデータセットの場合、Behavior Cloningは、最高のオフラインRLアルゴリズムに似ています。
関連論文リスト
- Domain Adaptation for Offline Reinforcement Learning with Limited Samples [2.3674123304219816]
オフライン強化学習は、静的ターゲットデータセットから効果的なポリシーを学ぶ。
最先端(SOTA)のオフラインRLアルゴリズムが有望であるにもかかわらず、ターゲットデータセットの品質に強く依存している。
本稿では,各データセットに割り当てられた重みがオフラインRLの性能に与える影響を理論的・実験的に検討した最初のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T05:38:48Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning [116.87367592920171]
オフライン強化学習(RL)は、固定データセットからタスク固有のポリシーを学ぶ上で有望な結果を示している。
特定のタスクのデータセットが制限されているシナリオでは、他のタスクからのデータセットでオフラインのRLを改善することが自然なアプローチである。
データ選択なしでデータセット全体を共有する不確実性に基づくマルチタスクデータ共有(MTDS)手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T08:16:52Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Harnessing Mixed Offline Reinforcement Learning Datasets via Trajectory
Weighting [29.21380944341589]
我々は、最先端のオフラインRLアルゴリズムが低リターントラジェクトリによって過剰に抑制され、トラジェクトリを最大限活用できないことを示す。
この再加重サンプリング戦略は、任意のオフラインRLアルゴリズムと組み合わせることができる。
私たちは、CQL、IQL、TD3+BCがこの潜在的なポリシー改善の一部しか達成していないのに対して、これらの同じアルゴリズムがデータセットを完全に活用していることを実証的に示しています。
論文 参考訳(メタデータ) (2023-06-22T17:58:02Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。