論文の概要: Safe Exploration for Efficient Policy Evaluation and Comparison
- arxiv url: http://arxiv.org/abs/2202.13234v1
- Date: Sat, 26 Feb 2022 21:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 17:22:11.379219
- Title: Safe Exploration for Efficient Policy Evaluation and Comparison
- Title(参考訳): 効率的な政策評価と比較のための安全な探索
- Authors: Runzhe Wan, Branislav Kveton, Rui Song
- Abstract要約: バンディット政策評価のための効率的で安全なデータ収集について検討する。
各変種について、その統計特性を分析し、対応する探索ポリシーを導出し、それを計算するための効率的なアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 20.97686379166058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality data plays a central role in ensuring the accuracy of policy
evaluation. This paper initiates the study of efficient and safe data
collection for bandit policy evaluation. We formulate the problem and
investigate its several representative variants. For each variant, we analyze
its statistical properties, derive the corresponding exploration policy, and
design an efficient algorithm for computing it. Both theoretical analysis and
experiments support the usefulness of the proposed methods.
- Abstract(参考訳): 高品質なデータは、政策評価の正確性を保証する上で中心的な役割を果たす。
本稿では,バンディット政策評価のための効率的かつ安全なデータ収集の研究を開始する。
我々はこの問題を定式化し,その代表的変種について検討する。
各変種について、その統計特性を分析し、対応する探索ポリシーを導出し、効率的な計算アルゴリズムを設計する。
理論的解析と実験の両方が提案手法の有用性を支持する。
関連論文リスト
- A Review of Global Sensitivity Analysis Methods and a comparative case study on Digit Classification [5.458813674116228]
グローバル感度分析(GSA)は、ある決定を下すモデルにつながる影響のある入力要素を検出することを目的としている。
本稿では,グローバルな感度分析手法に関する総合的なレビューと比較を行う。
論文 参考訳(メタデータ) (2024-06-23T00:38:19Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - From Variability to Stability: Advancing RecSys Benchmarking Practices [3.3331198926331784]
本稿では,RecSysアルゴリズムの公平かつ堅牢な比較を容易にするため,新しいベンチマーク手法を提案する。
本研究で導入された2つを含む30ドルのオープンデータセットの多種多様なセットを利用することで、データセット特性がアルゴリズム性能に与える影響を批判的に検証する。
論文 参考訳(メタデータ) (2024-02-15T07:35:52Z) - Positivity-free Policy Learning with Observational Data [8.293758599118618]
本研究では,新しい肯定的(確率的)政策学習フレームワークを提案する。
本研究では,治療に一定値を割り当てる代わりに,適応度スコア値を調整するための漸進的適合度スコアポリシーを提案する。
本稿では,政策学習に関連する理論的保証を徹底的に検討し,提案フレームワークの有限サンプル性能を検証した。
論文 参考訳(メタデータ) (2023-10-10T19:47:27Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Adaptive Estimator Selection for Off-Policy Evaluation [48.66170976187225]
オフポリシー評価設定における推定器選択のための汎用的データ駆動手法を開発した。
また,本手法の性能保証を確立し,オラクル推定器と競合することを示す。
論文 参考訳(メタデータ) (2020-02-18T16:57:42Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。