論文の概要: A Practical Guide of Off-Policy Evaluation for Bandit Problems
- arxiv url: http://arxiv.org/abs/2010.12470v1
- Date: Fri, 23 Oct 2020 15:11:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 22:17:24.094996
- Title: A Practical Guide of Off-Policy Evaluation for Bandit Problems
- Title(参考訳): バンディット問題に対するオフポリシー評価の実際的指針
- Authors: Masahiro Kato, Kenshi Abe, Kaito Ariu, Shota Yasui
- Abstract要約: オフ政治評価(OPE)とは、異なる政策によって得られたサンプルから対象政策の価値を推定する問題である。
既存のOPE推定器に基づくメタアルゴリズムを提案する。
実験において,人工的およびオープンな実世界のデータセットを用いて提案する概念について検討する。
- 参考スコア(独自算出の注目度): 13.607327477092877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation (OPE) is the problem of estimating the value of a
target policy from samples obtained via different policies. Recently, applying
OPE methods for bandit problems has garnered attention. For the theoretical
guarantees of an estimator of the policy value, the OPE methods require various
conditions on the target policy and policy used for generating the samples.
However, existing studies did not carefully discuss the practical situation
where such conditions hold, and the gap between them remains. This paper aims
to show new results for bridging the gap. Based on the properties of the
evaluation policy, we categorize OPE situations. Then, among practical
applications, we mainly discuss the best policy selection. For the situation,
we propose a meta-algorithm based on existing OPE estimators. We investigate
the proposed concepts using synthetic and open real-world datasets in
experiments.
- Abstract(参考訳): オフ政治評価(OPE)とは、異なる政策によって得られたサンプルから対象政策の価値を推定する問題である。
近年,盗賊問題に対するOPE法の適用が注目されている。
ポリシー値の推定子の理論的保証のために、ope法は、サンプルを生成するのに使用されるターゲットポリシーとポリシーの様々な条件を必要とする。
しかし、既存の研究はそのような状況の実態を慎重に議論せず、両者のギャップは残っている。
本稿では,そのギャップを埋めるための新しい結果を示す。
評価方針の特性に基づいて,OPEの状況を分類する。
そこで,本論文では,最も優れた政策選択について論じる。
そこで我々は,既存のOPE推定器に基づくメタアルゴリズムを提案する。
提案する概念を合成およびオープンな実世界データセットを用いて実験により検討する。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Efficient Multi-Policy Evaluation for Reinforcement Learning [25.83084281519926]
対象とするすべてのポリシーにおける推定器のばらつきを低減するために、調整された行動ポリシーを設計する。
推定器は, 従来の最適手法に比べて, かなり低いばらつきを有することを示す。
論文 参考訳(メタデータ) (2024-08-16T12:33:40Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Active Offline Policy Selection [19.18251239758809]
本稿では,ログデータの多いドメインにおけるポリシ選択の問題に対処するが,インタラクション予算が非常に制限されている。
ログデータのみを用いてポリシーの価値を評価するために、いくつかのオフ・ポリティクス・アセスメント(OPE)技術が提案されている。
本稿では、ログデータとオンラインインタラクションの制限を組み合わさって、最適なポリシーを識別する、新しい緊急オフラインポリシー選択問題の定式化を導入する。
論文 参考訳(メタデータ) (2021-06-18T17:33:13Z) - Offline Policy Comparison under Limited Historical Agent-Environment
Interactions [0.0]
強化学習システムの現実的な応用における政策評価の課題に対処する。
我々は,利用可能な歴史データに基づいて,政策比較,すなわち,その価値の観点から,政策のランク付けを行うことを提案する。
論文 参考訳(メタデータ) (2021-06-07T19:51:00Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。