Fugu-MT 論文翻訳(概要): Bridging the Gap Between Offline and Online Reinforcement Learning Evaluation Methodologies

論文の概要: Bridging the Gap Between Offline and Online Reinforcement Learning Evaluation Methodologies

arxiv url: http://arxiv.org/abs/2212.08131v2
Date: Wed, 22 Nov 2023 02:35:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 19:17:30.131293
Title: Bridging the Gap Between Offline and Online Reinforcement Learning Evaluation Methodologies
Title（参考訳）: オフラインとオンライン強化学習評価手法のギャップを埋める
Authors: Shivakanth Sujit, Pedro H. M. Braga, Jorg Bornschein, Samira Ebrahimi Kahou
Abstract要約: 強化学習(Reinforcement Learning, RL)は、大規模な状態と行動空間を持つ環境で学習するアルゴリズムに対して、非常に有望であることを示す。現在の深層RLアルゴリズムは、学習に膨大な量の環境相互作用を必要とする。オフラインのRLアルゴリズムは、既存のログデータから学習プロセスをブートストラップすることでこの問題に対処しようとする。
参考スコア（独自算出の注目度）: 6.303272140868826
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) has shown great promise with algorithms learning in environments with large state and action spaces purely from scalar reward signals. A crucial challenge for current deep RL algorithms is that they require a tremendous amount of environment interactions for learning. This can be infeasible in situations where such interactions are expensive; such as in robotics. Offline RL algorithms try to address this issue by bootstrapping the learning process from existing logged data without needing to interact with the environment from the very beginning. While online RL algorithms are typically evaluated as a function of the number of environment interactions, there exists no single established protocol for evaluating offline RL methods.In this paper, we propose a sequential approach to evaluate offline RL algorithms as a function of the training set size and thus by their data efficiency. Sequential evaluation provides valuable insights into the data efficiency of the learning process and the robustness of algorithms to distribution changes in the dataset while also harmonizing the visualization of the offline and online learning phases. Our approach is generally applicable and easy to implement. We compare several existing offline RL algorithms using this approach and present insights from a variety of tasks and offline datasets.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、スカラー報酬信号から、大きな状態とアクション空間を持つ環境で学習するアルゴリズムに対して、非常に有望であることを示す。現在の深いRLアルゴリズムにとって重要な課題は、学習に膨大な量の環境相互作用を必要とすることである。これは、ロボット工学のようなそのような相互作用が高価である状況では実現不可能である。オフラインRLアルゴリズムは、環境を最初から操作することなく、既存のログデータから学習プロセスをブートストラップすることで、この問題に対処しようとする。オンラインRLアルゴリズムは、通常、環境相互作用の回数の関数として評価されるが、オフラインRL手法を評価するための単一の確立されたプロトコルは存在せず、本論文では、オフラインRLアルゴリズムをトレーニングセットサイズの関数として、従ってデータ効率で評価するシーケンシャルアプローチを提案する。逐次評価は、学習プロセスのデータ効率とデータセットの変化を分散するアルゴリズムの堅牢性に関する貴重な洞察を提供すると同時に、オフラインおよびオンライン学習フェーズの可視化を調和させる。私たちのアプローチは一般的に適用可能で実装が容易です。このアプローチを用いて既存のオフラインRLアルゴリズムを比較し、さまざまなタスクやオフラインデータセットからの洞察を提示する。

関連論文リスト

What Matters for Batch Online Reinforcement Learning in Robotics? [65.06558240091758]
政策改善のために、自律的に収集された大量のデータから学習できることは、真にスケーラブルなロボット学習を可能にするという約束を支えている。これまで、オンラインRL問題に模倣学習とフィルタ模倣学習を適用してきた。これらの軸が自律的なデータ量でパフォーマンスとスケーリングにどのように影響するかを分析します。
論文参考訳（メタデータ） (2025-05-12T21:24:22Z)
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文参考訳（メタデータ） (2024-08-15T22:27:00Z)
Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文参考訳（メタデータ） (2024-05-14T09:12:30Z)
Data-Efficient Pipeline for Offline Reinforcement Learning with Limited Data [28.846826115837825]
オフライン強化学習は、過去のデータを活用することで、将来のパフォーマンスを改善するために使用できる。最適なポリシを自動トレーニングし、比較し、選択し、デプロイするためのタスクとメソッドに依存しないパイプラインを導入します。データセットが小さい場合には、大きな影響を与える可能性がある。
論文参考訳（メタデータ） (2022-10-16T21:24:53Z)
A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open Problems [0.0]
強化学習(RL)は、急速に人気が高まっている。高いコストと環境との相互作用の危険性のため、RLにはアクセスできない領域がまだ広い範囲にある。オフラインRLは、以前に収集されたインタラクションの静的データセットからのみ学習するパラダイムである。
論文参考訳（メタデータ） (2022-03-02T20:05:11Z)
A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文参考訳（メタデータ） (2021-09-22T16:03:29Z)
Behavioral Priors and Dynamics Models: Improving Performance and Domain Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。 MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文参考訳（メタデータ） (2021-06-16T20:48:49Z)
FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文参考訳（メタデータ） (2020-10-02T17:13:39Z)
Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。 CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文参考訳（メタデータ） (2020-06-26T17:50:26Z)
D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文参考訳（メタデータ） (2020-04-15T17:18:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。