Fugu-MT 論文翻訳(概要): Near Real-World Benchmarks for Offline Reinforcement Learning

論文の概要: Near Real-World Benchmarks for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2102.00714v1
Date: Mon, 1 Feb 2021 09:19:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-03 00:03:49.045019
Title: Near Real-World Benchmarks for Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習のための近世界ベンチマーク
Authors: Rongjun Qin, Songyi Gao, Xingyuan Zhang, Zhen Xu, Shengkai Huang, Zewen Li, Weinan Zhang, Yang Yu
Abstract要約: 本稿では,近世界のベンチマークであるNewRLについて紹介する。 NewRLには、ポリシー検証を目的とした、コントロールされたサイズと追加のテストデータセットを備えた、さまざまなドメインのデータセットが含まれている。我々は、データセットの報酬の代わりに、ポリシーのパフォーマンスを行動ポリシーの決定論的バージョンと比較するべきだと論じる。
参考スコア（独自算出の注目度）: 26.642722521820467
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Offline reinforcement learning (RL) aims at learning an optimal policy from a batch of collected data, without extra interactions with the environment during training. Offline RL attempts to alleviate the hazardous executions in environments, thus it will greatly broaden the scope of RL applications. However, current offline RL benchmarks commonly have a large reality gap. They involve large datasets collected by highly exploratory policies, and a trained policy is directly evaluated in the environment. Meanwhile, in real-world situations, running a highly exploratory policy is prohibited to ensure system safety, the data is commonly very limited, and a trained policy should be well validated before deployment. In this paper, we present a suite of near real-world benchmarks, NewRL. NewRL contains datasets from various domains with controlled sizes and extra test datasets for the purpose of policy validation. We then evaluate existing offline RL algorithms on NewRL. In the experiments, we argue that the performance of a policy should also be compared with the deterministic version of the behavior policy, instead of the dataset reward. Because the deterministic behavior policy is the baseline in the real scenarios, while the dataset is often collected with action perturbations that can degrade the performance. The empirical results demonstrate that the tested offline RL algorithms appear only competitive to the above deterministic policy on many datasets, and the offline policy evaluation hardly helps. The NewRL suit can be found at http://polixir.ai/research/newrl. We hope this work will shed some light on research and draw more attention when deploying RL in real-world systems.
Abstract（参考訳）: オフライン強化学習(rl)は、トレーニング中の環境との余分なインタラクションなしに、収集したデータのバッチから最適なポリシーを学ぶことを目的としている。オフラインRLは環境における有害な実行を緩和しようとするため、RLアプリケーションの範囲を大きく広げることになる。しかし、現在のオフラインRLベンチマークは一般的に大きな現実的なギャップがある。それらは、非常に探索的なポリシーによって収集された大きなデータセットを含み、訓練されたポリシーは、環境内で直接評価されます。一方、現実の状況では、高度に探索的なポリシーを実行することは、システムの安全性を確保するために禁止され、データは一般的に非常に制限され、トレーニングされたポリシーは、デプロイ前に適切に検証されるべきである。本稿では,近世界のベンチマークであるNewRLについて述べる。 NewRLには、ポリシー検証のために制御されたサイズと追加のテストデータセットを備えたさまざまなドメインのデータセットが含まれています。既存のオフラインRLアルゴリズムをNewRL上で評価する。実験では、データセット報酬の代わりに、ポリシーのパフォーマンスも行動ポリシーの決定論的なバージョンと比較されるべきであると主張します。決定論的行動ポリシーは実際のシナリオのベースラインであるため、データセットはパフォーマンスを低下させる可能性のあるアクション摂動で収集されることが多い。実験結果から,テスト済みのオフラインRLアルゴリズムは,上記の多くのデータセットに対する決定論的ポリシと競合するだけであり,オフラインポリシ評価がほとんど役に立たないことが示された。 NewRL スーツは http://polixir.ai/research/newrl で見ることができる。この研究が研究に光を当て、現実世界のシステムにRLをデプロイする際にもっと注目されることを願っています。

関連論文リスト

NeoRL-2: Near Real-World Benchmarks for Offline Reinforcement Learning with Extended Realistic Scenarios [8.93878940046993]
オフライン強化学習は、環境へのアクセスを(コスト的に)必要とせずに、歴史的なデータから学習することを目的としている。このベンチマークは、7つのシミュレートされたタスクから7つのデータセットと、対応する評価シミュレータで構成されている。我々はNeoRL-2が現実世界のアプリケーションのための強化学習アルゴリズムの開発を加速することを期待している。
論文参考訳（メタデータ） (2025-03-25T02:01:54Z)
Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文参考訳（メタデータ） (2024-12-09T17:28:03Z)
Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文参考訳（メタデータ） (2024-06-13T17:07:49Z)
Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文参考訳（メタデータ） (2023-10-12T17:50:09Z)
Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-06T17:58:14Z)
Offline RL With Realistic Datasets: Heteroskedasticity and Support Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文参考訳（メタデータ） (2022-11-02T11:36:06Z)
POPO: Pessimistic Offline Policy Optimization [6.122342691982727]
オフポリシーRLメソッドが、バリュー関数ビューからオフライン設定で学習できない理由について検討する。悲観的オフライン政策最適化(POPO)を提案する。これは悲観的価値関数を学習し、強い政策を得る。 POPOは驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールする。
論文参考訳（メタデータ） (2020-12-26T06:24:34Z)
Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。 CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文参考訳（メタデータ） (2020-06-26T17:50:26Z)
RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。 RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文参考訳（メタデータ） (2020-06-24T17:14:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。