論文の概要: Bridging the Gap Between Offline and Online Reinforcement Learning
Evaluation Methodologies
- arxiv url: http://arxiv.org/abs/2212.08131v2
- Date: Wed, 22 Nov 2023 02:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 19:17:30.131293
- Title: Bridging the Gap Between Offline and Online Reinforcement Learning
Evaluation Methodologies
- Title(参考訳): オフラインとオンライン強化学習評価手法のギャップを埋める
- Authors: Shivakanth Sujit, Pedro H. M. Braga, Jorg Bornschein, Samira Ebrahimi
Kahou
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、大規模な状態と行動空間を持つ環境で学習するアルゴリズムに対して、非常に有望であることを示す。
現在の深層RLアルゴリズムは、学習に膨大な量の環境相互作用を必要とする。
オフラインのRLアルゴリズムは、既存のログデータから学習プロセスをブートストラップすることでこの問題に対処しようとする。
- 参考スコア(独自算出の注目度): 6.303272140868826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has shown great promise with algorithms learning
in environments with large state and action spaces purely from scalar reward
signals. A crucial challenge for current deep RL algorithms is that they
require a tremendous amount of environment interactions for learning. This can
be infeasible in situations where such interactions are expensive; such as in
robotics. Offline RL algorithms try to address this issue by bootstrapping the
learning process from existing logged data without needing to interact with the
environment from the very beginning. While online RL algorithms are typically
evaluated as a function of the number of environment interactions, there exists
no single established protocol for evaluating offline RL methods.In this paper,
we propose a sequential approach to evaluate offline RL algorithms as a
function of the training set size and thus by their data efficiency. Sequential
evaluation provides valuable insights into the data efficiency of the learning
process and the robustness of algorithms to distribution changes in the dataset
while also harmonizing the visualization of the offline and online learning
phases. Our approach is generally applicable and easy to implement. We compare
several existing offline RL algorithms using this approach and present insights
from a variety of tasks and offline datasets.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、スカラー報酬信号から、大きな状態とアクション空間を持つ環境で学習するアルゴリズムに対して、非常に有望であることを示す。
現在の深いRLアルゴリズムにとって重要な課題は、学習に膨大な量の環境相互作用を必要とすることである。
これは、ロボット工学のようなそのような相互作用が高価である状況では実現不可能である。
オフラインRLアルゴリズムは、環境を最初から操作することなく、既存のログデータから学習プロセスをブートストラップすることで、この問題に対処しようとする。
オンラインRLアルゴリズムは、通常、環境相互作用の回数の関数として評価されるが、オフラインRL手法を評価するための単一の確立されたプロトコルは存在せず、本論文では、オフラインRLアルゴリズムをトレーニングセットサイズの関数として、従ってデータ効率で評価するシーケンシャルアプローチを提案する。
逐次評価は、学習プロセスのデータ効率とデータセットの変化を分散するアルゴリズムの堅牢性に関する貴重な洞察を提供すると同時に、オフラインおよびオンライン学習フェーズの可視化を調和させる。
私たちのアプローチは一般的に適用可能で実装が容易です。
このアプローチを用いて既存のオフラインRLアルゴリズムを比較し、さまざまなタスクやオフラインデータセットからの洞察を提示する。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Data-Efficient Pipeline for Offline Reinforcement Learning with Limited
Data [28.846826115837825]
オフライン強化学習は、過去のデータを活用することで、将来のパフォーマンスを改善するために使用できる。
最適なポリシを自動トレーニングし、比較し、選択し、デプロイするためのタスクとメソッドに依存しないパイプラインを導入します。
データセットが小さい場合には、大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2022-10-16T21:24:53Z) - A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open
Problems [0.0]
強化学習(RL)は、急速に人気が高まっている。
高いコストと環境との相互作用の危険性のため、RLにはアクセスできない領域がまだ広い範囲にある。
オフラインRLは、以前に収集されたインタラクションの静的データセットからのみ学習するパラダイムである。
論文 参考訳(メタデータ) (2022-03-02T20:05:11Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。