論文の概要: NeoRL-2: Near Real-World Benchmarks for Offline Reinforcement Learning with Extended Realistic Scenarios
- arxiv url: http://arxiv.org/abs/2503.19267v1
- Date: Tue, 25 Mar 2025 02:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:51:30.258828
- Title: NeoRL-2: Near Real-World Benchmarks for Offline Reinforcement Learning with Extended Realistic Scenarios
- Title(参考訳): NeoRL-2: 拡張現実シナリオによるオフライン強化学習のためのニアワールドベンチマーク
- Authors: Songyi Gao, Zuolin Tu, Rong-Jun Qin, Yi-Hao Sun, Xiong-Hui Chen, Yang Yu,
- Abstract要約: オフライン強化学習は、環境へのアクセスを(コスト的に)必要とせずに、歴史的なデータから学習することを目的としている。
このベンチマークは、7つのシミュレートされたタスクから7つのデータセットと、対応する評価シミュレータで構成されている。
我々はNeoRL-2が現実世界のアプリケーションのための強化学習アルゴリズムの開発を加速することを期待している。
- 参考スコア(独自算出の注目度): 8.93878940046993
- License:
- Abstract: Offline reinforcement learning (RL) aims to learn from historical data without requiring (costly) access to the environment. To facilitate offline RL research, we previously introduced NeoRL, which highlighted that datasets from real-world tasks are often conservative and limited. With years of experience applying offline RL to various domains, we have identified additional real-world challenges. These include extremely conservative data distributions produced by deployed control systems, delayed action effects caused by high-latency transitions, external factors arising from the uncontrollable variance of transitions, and global safety constraints that are difficult to evaluate during the decision-making process. These challenges are underrepresented in previous benchmarks but frequently occur in real-world tasks. To address this, we constructed the extended Near Real-World Offline RL Benchmark (NeoRL-2), which consists of 7 datasets from 7 simulated tasks along with their corresponding evaluation simulators. Benchmarking results from state-of-the-art offline RL approaches demonstrate that current methods often struggle to outperform the data-collection behavior policy, highlighting the need for more effective methods. We hope NeoRL-2 will accelerate the development of reinforcement learning algorithms for real-world applications. The benchmark project page is available at https://github.com/polixir/NeoRL2.
- Abstract(参考訳): オフライン強化学習(RL)は、環境へのアクセスを(コスト的に)必要とせずに、歴史的なデータから学習することを目的としている。
オフラインRLの研究を容易にするため、我々は以前NeoRLを導入し、現実世界のタスクからのデータセットは保守的で制限されることが多いことを強調した。
オフラインのRLをさまざまなドメインに適用した長年の経験から、我々はさらに現実的な課題を特定してきた。
これには、デプロイされた制御システムによって生成される極めて保守的なデータ分布、高遅延遷移による遅延作用、制御不能なトランジションの分散に起因する外部要因、意思決定プロセスにおいて評価が難しいグローバル安全制約が含まれる。
これらの課題は以前のベンチマークでは表現できないが、現実のタスクでは頻繁に発生する。
そこで我々は,7つのシミュレーションタスクから7つのデータセットと,それに対応する評価シミュレータからなるNear Real-World Offline RL Benchmark(NeoRL-2)を構築した。
最先端のオフラインRLアプローチによるベンチマーク結果は、現在の手法がデータ収集行動ポリシーを上回り、より効果的な方法の必要性を強調していることが多いことを示している。
我々はNeoRL-2が現実世界のアプリケーションのための強化学習アルゴリズムの開発を加速することを期待している。
ベンチマークプロジェクトのページはhttps://github.com/polixir/NeoRL2で公開されている。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Look Beneath the Surface: Exploiting Fundamental Symmetry for
Sample-Efficient Offline RL [29.885978495034703]
オフライン強化学習(RL)は、事前にコンパイルされたデータセットからポリシーを学ぶことによって、現実世界のタスクに魅力的なアプローチを提供する。
しかし、既存のオフラインRLアルゴリズムの性能はデータセットのスケールと状態-アクション空間カバレッジに大きく依存する。
システム力学の基本対称性を活用することで、小さなデータセット下でのオフラインRL性能を大幅に向上できるという新たな知見を提供する。
論文 参考訳(メタデータ) (2023-06-07T07:51:05Z) - Near Real-World Benchmarks for Offline Reinforcement Learning [26.642722521820467]
本稿では,近世界のベンチマークであるNewRLについて紹介する。
NewRLには、ポリシー検証を目的とした、コントロールされたサイズと追加のテストデータセットを備えた、さまざまなドメインのデータセットが含まれている。
我々は、データセットの報酬の代わりに、ポリシーのパフォーマンスを行動ポリシーの決定論的バージョンと比較するべきだと論じる。
論文 参考訳(メタデータ) (2021-02-01T09:19:10Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。