論文の概要: Safe Evaluation For Offline Learning: Are We Ready To Deploy?
- arxiv url: http://arxiv.org/abs/2212.08302v1
- Date: Fri, 16 Dec 2022 06:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 14:35:29.382007
- Title: Safe Evaluation For Offline Learning: Are We Ready To Deploy?
- Title(参考訳): オフライン学習のための安全な評価:デプロイの準備はできているか?
- Authors: Hager Radi, Josiah P. Hanna, Peter Stone, Matthew E. Taylor
- Abstract要約: 本稿では, ほぼ信頼度の高いオフ政治評価を用いて, オフライン学習の安全性評価を行う枠組みを提案する。
低いバウンドの見積もりは、新しく学習したターゲットポリシーが実際の環境にデプロイされる前にどれだけうまく機能するかを教えてくれます。
- 参考スコア(独自算出の注目度): 47.331520779610535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The world currently offers an abundance of data in multiple domains, from
which we can learn reinforcement learning (RL) policies without further
interaction with the environment. RL agents learning offline from such data is
possible but deploying them while learning might be dangerous in domains where
safety is critical. Therefore, it is essential to find a way to estimate how a
newly-learned agent will perform if deployed in the target environment before
actually deploying it and without the risk of overestimating its true
performance. To achieve this, we introduce a framework for safe evaluation of
offline learning using approximate high-confidence off-policy evaluation
(HCOPE) to estimate the performance of offline policies during learning. In our
setting, we assume a source of data, which we split into a train-set, to learn
an offline policy, and a test-set, to estimate a lower-bound on the offline
policy using off-policy evaluation with bootstrapping. A lower-bound estimate
tells us how good a newly-learned target policy would perform before it is
deployed in the real environment, and therefore allows us to decide when to
deploy our learned policy.
- Abstract(参考訳): 世界は現在、複数の領域に大量のデータを提供しており、環境とのさらなる相互作用なしに強化学習(RL)ポリシーを学ぶことができる。
このようなデータからオフラインで学習するrlエージェントは可能だが、安全性が重要な領域では、学習中にデプロイすることは危険である。
したがって、実際にデプロイする前にターゲット環境にデプロイし、実際のパフォーマンスを過大評価するリスクなしに、新しく学習したエージェントがどのように動作するかを推定する方法を見つけることが不可欠である。
そこで本稿では,学習中のオフラインポリシーの性能を推定するために,ほぼ信頼度の高いオフライン評価(HCOPE)を用いたオフライン学習の安全性評価フレームワークを提案する。
この設定では、オフラインポリシーとテストセットを学習するために、列車セットに分割したデータソースを仮定し、ブートストラップによるオフ政治評価を用いてオフラインポリシーの低いバウンドを推定する。
低いバウンドの見積は、新しく学習したターゲットポリシーが実際の環境にデプロイされる前にどれだけうまく機能するかを示し、それによって、学習したポリシーをいつデプロイするかを決定できます。
関連論文リスト
- Iterative Batch Reinforcement Learning via Safe Diversified Model-based Policy Search [2.0072624123275533]
バッチ強化学習は、トレーニング中に環境と直接対話することなく、ポリシー学習を可能にする。
このアプローチは、工業制御のような高リスクでコストのかかるアプリケーションに適しています。
本稿では,アンサンブルに基づくモデルに基づくポリシー探索に基づく反復的バッチ強化学習のためのアルゴリズム手法を提案する。
論文 参考訳(メタデータ) (2024-11-14T11:10:36Z) - Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - Dealing with the Unknown: Pessimistic Offline Reinforcement Learning [25.30634466168587]
本稿では, PessORLアルゴリズムを用いて, エージェントを慣れ親しんだ領域に積極的に誘導する手法を提案する。
我々は、アウト・オブ・ディストリビューション(OOD)状態に起因する問題に注目し、トレーニングデータセットに欠けている状態において、意図的に高い価値をペナルティ化する。
論文 参考訳(メタデータ) (2021-11-09T22:38:58Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。