論文の概要: Off-Policy Evaluation of Slate Policies under Bayes Risk
- arxiv url: http://arxiv.org/abs/2101.02553v1
- Date: Tue, 5 Jan 2021 20:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 11:40:22.695879
- Title: Off-Policy Evaluation of Slate Policies under Bayes Risk
- Title(参考訳): ベイズリスク下におけるスレート政策の評価
- Authors: Nikos Vlassis, Fernando Amat Gil, Ashok Chandrashekar
- Abstract要約: スレートのスロット上でロギングポリシーが因子化される典型的なケースにおいて、スレート帯のオフポリシ評価の問題について検討する。
PIによるリスク改善はスロット数とともに線形に増加し、スロットレベルの分岐の集合の算術平均と調和平均とのギャップによって線形に増加することを示す。
- 参考スコア(独自算出の注目度): 70.10677881866047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of off-policy evaluation for slate bandits, for the
typical case in which the logging policy factorizes over the slots of the
slate. We slightly depart from the existing literature by taking Bayes risk as
the criterion by which to evaluate estimators, and we analyze the family of
'additive' estimators that includes the pseudoinverse (PI) estimator of
Swaminathan et al.\ (2017; arXiv:1605.04812). Using a control variate approach,
we identify a new estimator in this family that is guaranteed to have lower
risk than PI in the above class of problems. In particular, we show that the
risk improvement over PI grows linearly with the number of slots, and linearly
with the gap between the arithmetic and the harmonic mean of a set of
slot-level divergences between the logging and the target policy. In the
typical case of a uniform logging policy and a deterministic target policy,
each divergence corresponds to slot size, showing that maximal gains can be
obtained for slate problems with diverse numbers of actions per slot.
- Abstract(参考訳): 本研究では,スレートのスロット上で伐採方針が決定される典型的な場合において,スレート帯の非政治評価の問題について検討する。
我々はベイズリスクを評価基準とすることで既存の文献から少し離れており、Swaminathan et al.\ (2017; arXiv:1605.04812) の擬似逆(PI)推定器を含む「付加的」推定器のファミリーを分析している。
制御変量法を用いて,上記の問題においてpiよりもリスクが低いことを保証した,このファミリーにおける新たな推定器を同定する。
特に、PIに対するリスク改善はスロット数とともに線形に増加し、ログとターゲットポリシーの間のスロットレベルのばらつきの集合の算術平均と調和平均とのギャップによって線形に増加することを示す。
均一なロギングポリシと決定論的ターゲットポリシの典型的な場合、各発散はスロットサイズに対応し、スロット毎の多様なアクションで問題をスレートするために最大ゲインを得ることができることを示す。
関連論文リスト
- Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。