論文の概要: Benchmarks for Reinforcement Learning with Biased Offline Data and Imperfect Simulators
- arxiv url: http://arxiv.org/abs/2407.00806v1
- Date: Sun, 30 Jun 2024 19:22:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 01:27:27.988137
- Title: Benchmarks for Reinforcement Learning with Biased Offline Data and Imperfect Simulators
- Title(参考訳): バイアス付きオフラインデータと不完全シミュレータを用いた強化学習のベンチマーク
- Authors: Ori Linial, Guy Tennenholtz, Uri Shalit,
- Abstract要約: 強化学習におけるオフラインデータと不完全なシミュレータを結合する4つの主な課題を概説する。
これらの課題には、シミュレータモデリングエラー、部分的な可観測性、状態と動作の相違、隠れたコンファウンディングが含まれる。
この結果から,今後の研究におけるベンチマークの必要性が示唆された。
- 参考スコア(独自算出の注目度): 16.740841615738642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many reinforcement learning (RL) applications one cannot easily let the agent act in the world; this is true for autonomous vehicles, healthcare applications, and even some recommender systems, to name a few examples. Offline RL provides a way to train agents without real-world exploration, but is often faced with biases due to data distribution shifts, limited coverage, and incomplete representation of the environment. To address these issues, practical applications have tried to combine simulators with grounded offline data, using so-called hybrid methods. However, constructing a reliable simulator is in itself often challenging due to intricate system complexities as well as missing or incomplete information. In this work, we outline four principal challenges for combining offline data with imperfect simulators in RL: simulator modeling error, partial observability, state and action discrepancies, and hidden confounding. To help drive the RL community to pursue these problems, we construct ``Benchmarks for Mechanistic Offline Reinforcement Learning'' (B4MRL), which provide dataset-simulator benchmarks for the aforementioned challenges. Our results suggest the key necessity of such benchmarks for future research.
- Abstract(参考訳): 多くの強化学習(RL)アプリケーションでは、エージェントが世界に簡単に振る舞うことはできない。これは自動運転車やヘルスケアアプリケーション、さらにはいくつかの推奨システムにも当てはまる。
オフラインRLは、現実世界の探索なしにエージェントを訓練する方法を提供するが、データ分散シフト、限られたカバレッジ、環境の不完全な表現のためにしばしばバイアスに直面している。
これらの問題に対処するために、シミュレーションと地上のオフラインデータを組み合わせて、いわゆるハイブリッド手法を用いて実践的な応用が試みられている。
しかし、信頼性のあるシミュレータの構築は、複雑なシステムの複雑さや欠落や不完全な情報のため、それ自体が困難であることが多い。
本研究では,RLにおけるオフラインデータと不完全なシミュレータを結合する4つの主要な課題について概説する。
RLコミュニティがこれらの問題を追求するのを助けるため、上記の課題に対するデータセット・シミュレータ・ベンチマークを提供する「機械的オフライン強化学習のためのベンチマーク」(B4MRL)を構築した。
この結果から,今後の研究におけるベンチマークの必要性が示唆された。
関連論文リスト
- Improving Offline Reinforcement Learning with Inaccurate Simulators [34.54402525918925]
オフラインデータセットと不正確なシミュレーションデータをよりうまく組み合わせる新しい手法を提案する。
具体的には、オフラインデータセットの状態分布に合わせるために、GAN(Generative Adversarial Network)モデルを事前訓練する。
D4RLベンチマークと実世界の操作タスクによる実験結果から,提案手法は不正確なシミュレータと限定されたオフラインデータセットにより,最先端の手法よりも優れた性能を実現することができることを確認した。
論文 参考訳(メタデータ) (2024-05-07T13:29:41Z) - Purpose in the Machine: Do Traffic Simulators Produce Distributionally
Equivalent Outcomes for Reinforcement Learning Applications? [35.719833726363085]
本研究は,交通アプリケーションのための強化学習(RL)エージェントの訓練によく使用される2つのシミュレータであるCityFlowとSUMOに焦点を当てる。
制御された仮想実験では、運転者の挙動やシミュレーションスケールが、これらのシミュレータからRL関連測度における分布同値性を示す証拠を見出した。
これらの結果は,交通シミュレータはRLトレーニングのデウス・エグゼクティブ・マシンナではないことを示唆している。
論文 参考訳(メタデータ) (2023-11-14T01:05:14Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - H2O+: An Improved Framework for Hybrid Offline-and-Online RL with
Dynamics Gaps [31.608209251850553]
我々はH2O+と呼ばれる新しいアルゴリズムを開発し、オフラインおよびオンライン学習の様々な選択肢を橋渡しする優れた柔軟性を提供します。
先進的なクロスドメインとオフラインのRLアルゴリズムよりも優れた性能と柔軟性を示す。
論文 参考訳(メタデータ) (2023-09-22T08:58:22Z) - When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online
Reinforcement Learning [7.786094194874359]
本稿では,この問題に対する肯定的な回答を提供するために,Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning (H2O)フレームワークを提案する。
H2Oは動的に認識されたポリシー評価スキームを導入し、大きなダイナミックスギャップを持つシミュレーション状態-作用対上でQ関数学習を適応的にペナルティ化する。
我々は、他のドメイン間のオンラインおよびオフラインRLアルゴリズムに対してH2Oの優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-27T17:18:11Z) - DR2L: Surfacing Corner Cases to Robustify Autonomous Driving via Domain
Randomization Reinforcement Learning [4.040937987024427]
ドメインランダム化(DR)は、このギャップをほとんど、あるいは全く現実世界のデータで埋めることのできる方法論である。
シミュレーションで訓練されたDeepRLベースの自動運転車を強固にするために、敵対モデルが提案されている。
論文 参考訳(メタデータ) (2021-07-25T09:15:46Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z) - From Simulation to Real World Maneuver Execution using Deep
Reinforcement Learning [69.23334811890919]
深層強化学習(Deep Reinforcement Learning)は、さまざまな分野における多くの制御タスクを解決できることが証明されている。
これは主に、シミュレーションデータと実世界のデータ間のドメイン適応の欠如と、トレインデータセットとテストデータセットの区別の欠如による。
本稿では,エージェントが同時に訓練される複数の環境に基づくシステムを提案する。
論文 参考訳(メタデータ) (2020-05-13T14:22:20Z) - Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。
エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文 参考訳(メタデータ) (2020-04-29T18:00:22Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。