論文の概要: SaVeR: Optimal Data Collection Strategy for Safe Policy Evaluation in Tabular MDP
- arxiv url: http://arxiv.org/abs/2406.02165v1
- Date: Tue, 4 Jun 2024 09:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 16:51:53.740445
- Title: SaVeR: Optimal Data Collection Strategy for Safe Policy Evaluation in Tabular MDP
- Title(参考訳): SaVeR: タブラルMDPにおける安全政策評価のための最適データ収集戦略
- Authors: Subhojyoti Mukherjee, Josiah P. Hanna, Robert Nowak,
- Abstract要約: 表型マルコフ決定過程(MDP)における政策評価を目的とした安全なデータ収集について検討する。
まず、問題パラメータに関する知識を持つ安全なオラクルアルゴリズムが、データを効率よく収集し、安全性の制約を満たすような、難解なMDPのクラスが存在することを示す。
次に、この問題に対するアルゴリズムSaVeRを導入し、安全オラクルアルゴリズムを近似し、アルゴリズムの有限サンプル平均二乗誤差を拘束し、安全性の制約を満たすことを保証する。
- 参考スコア(独自算出の注目度): 9.71834921109414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study safe data collection for the purpose of policy evaluation in tabular Markov decision processes (MDPs). In policy evaluation, we are given a \textit{target} policy and asked to estimate the expected cumulative reward it will obtain. Policy evaluation requires data and we are interested in the question of what \textit{behavior} policy should collect the data for the most accurate evaluation of the target policy. While prior work has considered behavior policy selection, in this paper, we additionally consider a safety constraint on the behavior policy. Namely, we assume there exists a known default policy that incurs a particular expected cost when run and we enforce that the cumulative cost of all behavior policies ran is better than a constant factor of the cost that would be incurred had we always run the default policy. We first show that there exists a class of intractable MDPs where no safe oracle algorithm with knowledge about problem parameters can efficiently collect data and satisfy the safety constraints. We then define the tractability condition for an MDP such that a safe oracle algorithm can efficiently collect data and using that we prove the first lower bound for this setting. We then introduce an algorithm SaVeR for this problem that approximates the safe oracle algorithm and bound the finite-sample mean squared error of the algorithm while ensuring it satisfies the safety constraint. Finally, we show in simulations that SaVeR produces low MSE policy evaluation while satisfying the safety constraint.
- Abstract(参考訳): 本稿では,表型マルコフ決定プロセス(MDP)の政策評価を目的とした安全なデータ収集について検討する。
政策評価では,<textit{target} ポリシーが与えられ,得られた累積報酬を見積もる。
政策評価にはデータが必要であり、ターゲット政策の最も正確な評価のために、どの方針がデータを集めるべきかという問題に関心がある。
これまでの作業では行動ポリシーの選択が検討されてきたが,本稿では行動ポリシーに対する安全性の制約も検討している。
すなわち、実行時に特定の期待されるコストを発生させる既知のデフォルトポリシーが存在すると仮定し、デフォルトポリシーを常に実行している場合、実行されているすべての行動ポリシーの累積コストが、実行されるコストの一定要素よりも優れていることを強制します。
まず、問題パラメータに関する知識を持つ安全なオラクルアルゴリズムが、データを効率よく収集し、安全性の制約を満たすような、難解なMDPのクラスが存在することを示す。
次に、安全なオラクルアルゴリズムが効率的にデータを収集できるようなMDPのトラクタビリティ条件を定義し、この設定に対する最初の下位境界を証明する。
次に、この問題に対するアルゴリズムSaVeRを導入し、安全オラクルアルゴリズムを近似し、アルゴリズムの有限サンプル平均二乗誤差を拘束し、安全性の制約を満たすことを保証する。
最後に,SaVeRが安全性の制約を満たしつつ,低MSEポリシー評価を実現することをシミュレーションで示す。
関連論文リスト
- Conservative Exploration for Policy Optimization via Off-Policy Policy
Evaluation [4.837737516460689]
我々は,少なくとも学習者がその性能を保証できなければならない保守的な探索の問題を,少なくとも基本方針と同程度によく研究する。
連続有限ホライゾン問題におけるポリシー最適化のための最初の保守的証明可能なモデルフリーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-24T10:59:32Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - SPEED: Experimental Design for Policy Evaluation in Linear
Heteroscedastic Bandits [13.02672341061555]
線形帯域における政策評価のための最適データ収集の問題について検討する。
まず,重み付き最小二乗推定値に対して,重み付き線形帯域設定で最適設計を定式化する。
次に、この定式化を使用して、データ収集中にアクション毎のサンプルの最適な割り当てを導出します。
論文 参考訳(メタデータ) (2023-01-29T04:33:13Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Randomized Policy Optimization for Optimal Stopping [0.0]
本稿では,ランダム化線形ポリシーに基づく最適停止手法を提案する。
提案手法は最先端手法を著しく上回り得ることを示す。
論文 参考訳(メタデータ) (2022-03-25T04:33:15Z) - Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。
文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文 参考訳(メタデータ) (2020-10-23T15:22:57Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。