論文の概要: Off-Policy Evaluation of Slate Bandit Policies via Optimizing
Abstraction
- arxiv url: http://arxiv.org/abs/2402.02171v2
- Date: Sat, 17 Feb 2024 17:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 02:54:05.196880
- Title: Off-Policy Evaluation of Slate Bandit Policies via Optimizing
Abstraction
- Title(参考訳): 抽象化最適化によるSlate Bandit Policiesのオフライン評価
- Authors: Haruka Kiyohara, Masahiro Nomura, Yuta Saito
- Abstract要約: 政策がスレートとして知られる多次元動作を選択する場合のスレート・コンテクスト・バンドイットの問題について検討する。
Inverse Propensity Scoring (IPS) の典型的な推定器は、大きな作用空間のためにかなりのばらつきに悩まされる。
我々は,低次元スレート抽象空間における重み付けを規定するラテントIPS (LIPS) と呼ばれる,スレート包帯のOPEの新しい推定器を開発した。
- 参考スコア(独自算出の注目度): 22.215852332444907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study off-policy evaluation (OPE) in the problem of slate contextual
bandits where a policy selects multi-dimensional actions known as slates. This
problem is widespread in recommender systems, search engines, marketing, to
medical applications, however, the typical Inverse Propensity Scoring (IPS)
estimator suffers from substantial variance due to large action spaces, making
effective OPE a significant challenge. The PseudoInverse (PI) estimator has
been introduced to mitigate the variance issue by assuming linearity in the
reward function, but this can result in significant bias as this assumption is
hard-to-verify from observed data and is often substantially violated. To
address the limitations of previous estimators, we develop a novel estimator
for OPE of slate bandits, called Latent IPS (LIPS), which defines importance
weights in a low-dimensional slate abstraction space where we optimize slate
abstractions to minimize the bias and variance of LIPS in a data-driven way. By
doing so, LIPS can substantially reduce the variance of IPS without imposing
restrictive assumptions on the reward function structure like linearity.
Through empirical evaluation, we demonstrate that LIPS substantially
outperforms existing estimators, particularly in scenarios with non-linear
rewards and large slate spaces.
- Abstract(参考訳): 政策がスレートとして知られる多次元行動を選択する場合のスレート・コンテクスト・バンドイット問題におけるオフ・ポリティィ・アセスメント(OPE)について検討する。
この問題は、リコメンデータシステム、検索エンジン、マーケティング、医療アプリケーションに広まっているが、典型的な逆不均衡スコアリング(IPS)推定器は、大きなアクション空間のためにかなりのばらつきに悩まされており、有効なOPEが大きな課題となっている。
Pseudo Inverse (PI) 推定器は、報酬関数の線形性を仮定することで分散問題を緩和するために導入されているが、この仮定は観測データから検証が困難であり、しばしば実質的に違反されるため、かなりのバイアスをもたらす。
従来の推定器の限界に対処するため,Latent IPS (LIPS) と呼ばれる,低次元スレート抽象空間における重要重みを定義し,データ駆動方式でLPPSのバイアスと分散を最小化するためにスレート抽象化を最適化する新しい推定器を開発した。
これにより、LIPSは線形性のような報酬関数構造に制限的な仮定を課すことなくIPSの分散を大幅に低減することができる。
経験的評価により、LIPSは既存の推定器、特に非線形報酬や大きなスレート空間のシナリオにおいて、かなり優れることを示した。
関連論文リスト
- Disparate Impact on Group Accuracy of Linearization for Private
Inference [52.73179793185882]
多数派と比較して,ReLUアクティベーション数の減少は少数派に対する精度を著しく低下させることを示す。
また,線形化モデルの微調整手順を変更する簡単な手順が,効果的な緩和戦略として有効であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:56:29Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Exponential Smoothing for Off-Policy Learning [16.284314586358928]
逆相対性スコアリング(IPS)のための両側PAC-Bayes一般化を導出する。
バウンダリは、トラクタブルで、スケーラブルで、解釈可能で、学習証明書を提供する。
論文 参考訳(メタデータ) (2023-05-25T09:18:45Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Off-Policy Evaluation for Large Action Spaces via Embeddings [36.42838320396534]
文脈的包帯におけるオフ政治評価(OPE)は、現実世界のシステムで急速に採用されている。
既存のOPE推定器は、アクションの数が大きいと著しく劣化する。
我々は,アクション埋め込みがアクション空間の構造を提供する際に,余分な重み付けを生かした新しいOPE推定器を提案する。
論文 参考訳(メタデータ) (2022-02-13T14:00:09Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。