論文の概要: Towards Data-Driven Offline Simulations for Online Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2211.07614v1
- Date: Mon, 14 Nov 2022 18:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 19:27:54.890793
- Title: Towards Data-Driven Offline Simulations for Online Reinforcement
Learning
- Title(参考訳): オンライン強化学習のためのデータ駆動オフラインシミュレーションに向けて
- Authors: Shengpu Tang, Felipe Vieira Frujeri, Dipendra Misra, Alex Lamb, John
Langford, Paul Mineiro, Sebastian Kochman
- Abstract要約: 強化学習のためのオフライン学習者シミュレーション(OLS)を形式化する。
シミュレーションの忠実度と効率を両立させる新しい評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 30.654163861164864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern decision-making systems, from robots to web recommendation engines,
are expected to adapt: to user preferences, changing circumstances or even new
tasks. Yet, it is still uncommon to deploy a dynamically learning agent (rather
than a fixed policy) to a production system, as it's perceived as unsafe. Using
historical data to reason about learning algorithms, similar to offline policy
evaluation (OPE) applied to fixed policies, could help practitioners evaluate
and ultimately deploy such adaptive agents to production. In this work, we
formalize offline learner simulation (OLS) for reinforcement learning (RL) and
propose a novel evaluation protocol that measures both fidelity and efficiency
of the simulation. For environments with complex high-dimensional observations,
we propose a semi-parametric approach that leverages recent advances in latent
state discovery in order to achieve accurate and efficient offline simulations.
In preliminary experiments, we show the advantage of our approach compared to
fully non-parametric baselines. The code to reproduce these experiments will be
made available at https://github.com/microsoft/rl-offline-simulation.
- Abstract(参考訳): ロボットからWebレコメンデーションエンジンまで、現代の意思決定システムは、ユーザの好み、状況の変化、さらには新しいタスクに適応することが期待される。
しかし、製品システムに動的に学習するエージェント(固定されたポリシーではなく)を配置することは、安全でないと認識されるため、いまだに珍しくありません。
固定ポリシーに適用されたオフラインポリシー評価(OPE)と同様、履歴データを使って学習アルゴリズムを推論することは、実践者がそのような適応エージェントを最終的に本番環境に評価し、デプロイするのに役立ちます。
本研究では,強化学習(rl)のためのオフライン学習者シミュレーション(ols)を定式化し,シミュレーションの忠実性と効率を計測する新しい評価プロトコルを提案する。
複雑な高次元観測環境に対して, 潜在状態発見の最近の進歩を活かし, 高精度かつ効率的なオフラインシミュレーションを実現する準パラメトリック手法を提案する。
予備実験では, 完全非パラメトリックベースラインと比較して, アプローチの利点を示す。
これらの実験を再現するコードはhttps://github.com/microsoft/rl-offline-simulationで公開される。
関連論文リスト
- COSBO: Conservative Offline Simulation-Based Policy Optimization [7.696359453385686]
オフライン強化学習は、ライブデプロイメントのデータに関する強化学習モデルのトレーニングを可能にする。
対照的に、ライブ環境を再現しようとするシミュレーション環境は、ライブデータの代わりに利用できる。
本研究では,不完全なシミュレーション環境と対象環境のデータを組み合わせることで,オフラインの強化学習ポリシーを訓練する手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T12:20:55Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Offline Robot Reinforcement Learning with Uncertainty-Guided Human
Expert Sampling [11.751910133386254]
バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する上で有望な結果を示している。
本研究では,不確実性推定を用いて人間の実演データを注入する手法を提案する。
実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-16T01:41:59Z) - Online vs. Offline Adaptive Domain Randomization Benchmark [20.69035879843824]
オフラインとオンラインの両方の手法(SimOpt、BayRn、DROID、DROPO)のオープンなベンチマークを行い、各設定やタスクに最も適しているものを列挙する。
オンライン手法は次のイテレーションで学習したポリシーの品質によって制限されているのに対し,オフライン手法はオープンループコマンドによるシミュレーションでトラジェクトリを再生する際に失敗することがあることがわかった。
論文 参考訳(メタデータ) (2022-06-29T14:03:53Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Do Offline Metrics Predict Online Performance in Recommender Systems? [79.48653445643865]
6つのシミュレーション環境におけるレコメンデータの評価により,オフラインメトリクスがオンラインのパフォーマンスを予測する程度について検討した。
オフラインメトリクスは、様々な環境におけるオンラインのパフォーマンスと相関している。
本研究は,探索戦略の追加による影響について検討し,その有効性はレコメンデーションアルゴリズムに大きく依存していることを示す。
論文 参考訳(メタデータ) (2020-11-07T01:41:13Z) - Deployment-Efficient Reinforcement Learning via Model-Based Offline
Optimization [46.017212565714175]
本稿では,政策学習に使用される異なるデータ収集ポリシーの数を測定する,展開効率の新たな概念を提案する。
本研究では,従来よりも10~20倍少ないデータを用いてオフラインでポリシーを効果的に最適化できるモデルベースアルゴリズムBREMENを提案する。
論文 参考訳(メタデータ) (2020-06-05T19:33:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。