論文の概要: Accelerated Policy Evaluation: Learning Adversarial Environments with
Adaptive Importance Sampling
- arxiv url: http://arxiv.org/abs/2106.10566v1
- Date: Sat, 19 Jun 2021 20:03:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:56:33.124737
- Title: Accelerated Policy Evaluation: Learning Adversarial Environments with
Adaptive Importance Sampling
- Title(参考訳): 政策評価の加速:適応的重要度サンプリングによる対向環境の学習
- Authors: Mengdi Xu, Peide Huang, Fengpei Li, Jiacheng Zhu, Xuewei Qi, Kentaro
Oguchi, Zhiyuan Huang, Henry Lam, Ding Zhao
- Abstract要約: 安全クリティカルシステムにおけるバイアスまたは不正確な政策評価は、予期せぬ破滅的な失敗を引き起こす可能性がある。
本稿では,稀な事象を同時に発見し,稀な事象の確率を推定するAPE手法を提案する。
APEは、関数近似器を組み込むことにより、大きな離散空間や連続空間にスケーラブルである。
- 参考スコア(独自算出の注目度): 19.81658135871748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evaluation of rare but high-stakes events remains one of the main
difficulties in obtaining reliable policies from intelligent agents, especially
in large or continuous state/action spaces where limited scalability enforces
the use of a prohibitively large number of testing iterations. On the other
hand, a biased or inaccurate policy evaluation in a safety-critical system
could potentially cause unexpected catastrophic failures during deployment. In
this paper, we propose the Accelerated Policy Evaluation (APE) method, which
simultaneously uncovers rare events and estimates the rare event probability in
Markov decision processes. The APE method treats the environment nature as an
adversarial agent and learns towards, through adaptive importance sampling, the
zero-variance sampling distribution for the policy evaluation. Moreover, APE is
scalable to large discrete or continuous spaces by incorporating function
approximators. We investigate the convergence properties of proposed algorithms
under suitable regularity conditions. Our empirical studies show that APE
estimates rare event probability with a smaller variance while only using
orders of magnitude fewer samples compared to baseline methods in both
multi-agent and single-agent environments.
- Abstract(参考訳): 稀だが高いイベントの評価は、知的エージェント、特に拡張性に制限のある大規模または連続的な状態/動作空間において、非常に多数のテストイテレーションの使用を強制する信頼性の高いポリシーを取得する上で、依然として大きな困難の1つである。
一方で、安全クリティカルなシステムにおけるバイアスや不正確なポリシー評価は、展開中に予期せぬ破滅的な障害を引き起こす可能性がある。
本稿では,マルコフ決定過程におけるレア事象を探索し,レア事象確率を推定するaccelerated policy evaluation (ape)法を提案する。
ape法は,環境特性を対向剤として扱い,適応的重要度サンプリングにより,政策評価のためのゼロ分散サンプリング分布を学習する。
さらに、APEは関数近似器を組み込むことで、大きな離散空間や連続空間にスケーラブルである。
適切な正則性条件下で提案アルゴリズムの収束特性について検討する。
実験により, APEは, 多エージェント環境と単一エージェント環境の両方において, 基準法に比べて, サンプルのオーダーを桁違いに減らしながら, ばらつきの少ない稀な事象確率を推定した。
関連論文リスト
- Probabilistic Offline Policy Ranking with Approximate Bayesian
Computation [4.919605764492689]
安全性と信頼性のために、現実のデプロイメントの前に、候補ポリシーをオフラインで比較し、ランク付けすることが不可欠です。
我々は、OPR問題に対処する枠組みである確率的オフライン政策ランキング(POPR)を提示する。
POPRは値推定に依存せず、導出された性能後部は、最悪の、最も良い、平均的なケースの候補を区別するために使用することができる。
論文 参考訳(メタデータ) (2023-12-17T05:22:44Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Low Variance Off-policy Evaluation with State-based Importance Sampling [25.668550396248474]
本稿では,非政治評価のための州別重要度サンプリングを提案する。
これは、通常の重要性サンプリング分散を$O(exp(H))$から$O(exp(X))$に還元する。
論文 参考訳(メタデータ) (2022-12-07T19:56:11Z) - A Deep Reinforcement Learning Approach to Rare Event Estimation [30.670114229970526]
自律システムの設計における重要なステップは、失敗が起こる確率を評価することである。
安全クリティカルな領域では、モンテカルロサンプリングによる政策の評価が非効率であるように、失敗確率は非常に小さい。
逐次意思決定システムにおいて、稀な事象の確率を効率的に推定できる2つの適応的重要度サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-22T18:29:14Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Quantifying Uncertainty in Deep Spatiotemporal Forecasting [67.77102283276409]
本稿では,正規格子法とグラフ法という2種類の予測問題について述べる。
我々はベイジアンおよび頻繁な視点からUQ法を解析し、統計的決定理論を通じて統一的な枠組みを提示する。
実際の道路ネットワークのトラフィック、疫病、空気質予測タスクに関する広範な実験を通じて、異なるUQ手法の統計計算トレードオフを明らかにする。
論文 参考訳(メタデータ) (2021-05-25T14:35:46Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - A One-step Approach to Covariate Shift Adaptation [82.01909503235385]
多くの機械学習シナリオにおけるデフォルトの前提は、トレーニングとテストサンプルは同じ確率分布から引き出されることである。
予測モデルと関連する重みを1つの最適化で共同で学習する新しいワンステップアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-08T11:35:47Z) - Conformal Inference of Counterfactuals and Individual Treatment Effects [6.810856082577402]
そこで本研究では,反ファクトや個々の治療効果について,信頼できる間隔を推定できる共形推論に基づく手法を提案する。
既存の手法は、単純なモデルであってもかなりのカバレッジの欠陥に悩まされる。
論文 参考訳(メタデータ) (2020-06-11T01:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。