論文の概要: Off-Policy Evaluation for Large Action Spaces via Embeddings
- arxiv url: http://arxiv.org/abs/2202.06317v1
- Date: Sun, 13 Feb 2022 14:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 14:05:50.787374
- Title: Off-Policy Evaluation for Large Action Spaces via Embeddings
- Title(参考訳): 埋め込みによる大規模行動空間のオフポリシー評価
- Authors: Yuta Saito and Thorsten Joachims
- Abstract要約: 文脈的包帯におけるオフ政治評価(OPE)は、現実世界のシステムで急速に採用されている。
既存のOPE推定器は、アクションの数が大きいと著しく劣化する。
我々は,アクション埋め込みがアクション空間の構造を提供する際に,余分な重み付けを生かした新しいOPE推定器を提案する。
- 参考スコア(独自算出の注目度): 36.42838320396534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation (OPE) in contextual bandits has seen rapid adoption in
real-world systems, since it enables offline evaluation of new policies using
only historic log data. Unfortunately, when the number of actions is large,
existing OPE estimators -- most of which are based on inverse propensity score
weighting -- degrade severely and can suffer from extreme bias and variance.
This foils the use of OPE in many applications from recommender systems to
language models. To overcome this issue, we propose a new OPE estimator that
leverages marginalized importance weights when action embeddings provide
structure in the action space. We characterize the bias, variance, and mean
squared error of the proposed estimator and analyze the conditions under which
the action embedding provides statistical benefits over conventional
estimators. In addition to the theoretical analysis, we find that the empirical
performance improvement can be substantial, enabling reliable OPE even when
existing estimators collapse due to a large number of actions.
- Abstract(参考訳): 歴史的ログデータのみを用いた新たなポリシのオフライン評価を可能にするため,コンテキスト帯におけるオフ政治評価(OPE)が現実のシステムに急速に採用されている。
残念ながら、アクションの数が大きい場合、既存のOPE推定器(そのほとんどは逆の確率スコアの重み付けに基づく)は著しく低下し、極端なバイアスとばらつきに悩まされる可能性がある。
これは、レコメンデータシステムから言語モデルまで、多くのアプリケーションでOPEの使用を後押ししている。
この問題を解決するために,アクション埋め込みがアクション空間の構造を提供する際に,余分に重み付けされた重み付けを利用する新しいOPE推定器を提案する。
本研究では,提案する推定器のバイアス,分散,平均二乗誤差を特徴付け,動作埋め込みが従来の推定器よりも統計的に有利な条件を分析する。
理論的解析に加えて,既存の推定器が多数の動作によって崩壊しても信頼性の高いOPEを実現する実験的な性能改善が可能となる。
関連論文リスト
- Causal Deepsets for Off-policy Evaluation under Spatial or Spatio-temporal Interferences [24.361550505778155]
オフコマース評価(OPE)は、医薬品やe-policy-policyなどの分野に広く適用されている。
本稿では,いくつかの重要な構造的仮定を緩和する因果的深層化フレームワークを提案する。
PI仮定をOPEに組み込んだ新しいアルゴリズムを提案し,その理論的基礎を徹底的に検証する。
論文 参考訳(メタデータ) (2024-07-25T10:02:11Z) - Off-Policy Evaluation of Slate Bandit Policies via Optimizing
Abstraction [22.215852332444907]
政策がスレートとして知られる多次元動作を選択する場合のスレート・コンテクスト・バンドイットの問題について検討する。
Inverse Propensity Scoring (IPS) の典型的な推定器は、大きな作用空間のためにかなりのばらつきに悩まされる。
我々は,低次元スレート抽象空間における重み付けを規定するラテントIPS (LIPS) と呼ばれる,スレート包帯のOPEの新しい推定器を開発した。
論文 参考訳(メタデータ) (2024-02-03T14:38:09Z) - Counterfactual-Augmented Importance Sampling for Semi-Offline Policy
Evaluation [13.325600043256552]
そこで本研究では,ヒトが観測不能な反事実軌道のアノテーションを提供する半オフライン評価フレームワークを提案する。
提案手法は,アノテーション・ソリケーションの原則に基づく設計と組み合わせることで,高次の領域における強化学習の活用を可能にする。
論文 参考訳(メタデータ) (2023-10-26T04:41:19Z) - Off-Policy Evaluation for Large Action Spaces via Conjunct Effect
Modeling [30.835774920236872]
大規模離散行動空間に対する文脈的帯域ポリシーの非政治的評価について検討する。
共役効果モデル (CEM) に基づく新しい推定器であるOffCEMを提案し, 因果効果をクラスター効果に分解し, 残留効果を示す。
実験により、OFCEMは特に多くのアクションが存在する場合、OPEを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-05-14T04:16:40Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - Off-Policy Evaluation via the Regularized Lagrangian [110.28927184857478]
最近提案された分布補正推定(DICE)ファミリーは, 行動に依存しないデータを用いた非政治的評価において, 技術の現状を推し進めている。
本稿では,これらを線形プログラムの正規化ラグランジアンとして統一する。
双対解は、安定性と推定バイアスの間のトレードオフをナビゲートする際の柔軟性を向上し、一般的にはより優れた見積もりを提供する。
論文 参考訳(メタデータ) (2020-07-07T13:45:56Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。