論文の概要: Off-Policy Evaluation for Large Action Spaces via Conjunct Effect
Modeling
- arxiv url: http://arxiv.org/abs/2305.08062v2
- Date: Fri, 2 Jun 2023 20:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 01:18:07.852947
- Title: Off-Policy Evaluation for Large Action Spaces via Conjunct Effect
Modeling
- Title(参考訳): 結束効果モデリングによる大規模行動空間のオフポリシー評価
- Authors: Yuta Saito, Qingyang Ren, Thorsten Joachims
- Abstract要約: 大規模離散行動空間に対する文脈的帯域ポリシーの非政治的評価について検討する。
共役効果モデル (CEM) に基づく新しい推定器であるOffCEMを提案し, 因果効果をクラスター効果に分解し, 残留効果を示す。
実験により、OFCEMは特に多くのアクションが存在する場合、OPEを大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 30.835774920236872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study off-policy evaluation (OPE) of contextual bandit policies for large
discrete action spaces where conventional importance-weighting approaches
suffer from excessive variance. To circumvent this variance issue, we propose a
new estimator, called OffCEM, that is based on the conjunct effect model (CEM),
a novel decomposition of the causal effect into a cluster effect and a residual
effect. OffCEM applies importance weighting only to action clusters and
addresses the residual causal effect through model-based reward estimation. We
show that the proposed estimator is unbiased under a new condition, called
local correctness, which only requires that the residual-effect model preserves
the relative expected reward differences of the actions within each cluster. To
best leverage the CEM and local correctness, we also propose a new two-step
procedure for performing model-based estimation that minimizes bias in the
first step and variance in the second step. We find that the resulting OffCEM
estimator substantially improves bias and variance compared to a range of
conventional estimators. Experiments demonstrate that OffCEM provides
substantial improvements in OPE especially in the presence of many actions.
- Abstract(参考訳): 従来の重要度重み付けアプローチが過度なばらつきを被る大規模離散行動空間における文脈的バンディットポリシーのオフポリシー評価(ope)について検討した。
この分散問題を回避すべく,結束効果モデル(cem)に基づく新たな推定器であるoffcemを提案し,因果効果のクラスター効果への新しい分解と残留効果を提案する。
OffCEMは、アクションクラスタのみに重み付けを適用し、モデルベースの報酬推定を通じて残留因果効果に対処する。
提案した推定器は局所的正当性と呼ばれる新しい条件下では偏りがなく, 残差効果モデルが各クラスタ内の動作の相対的な報酬差を保持する必要がある。
また,CEMと局所的正当性を最大限に活用するために,第1ステップのバイアスと第2ステップのばらつきを最小化するモデルベース推定法を提案する。
その結果,従来の推定器に比べてバイアスやばらつきが大幅に改善されることがわかった。
OffCEMは、特に多くのアクションが存在する場合、OPEを大幅に改善することを示した。
関連論文リスト
- Effective Off-Policy Evaluation and Learning in Contextual Combinatorial Bandits [15.916834591090009]
文脈的包帯における非政治評価と学習について検討する。
この設定はレコメンデーターシステムやヘルスケアといった分野で広く使われている。
因子化された作用空間の概念を導入し、各サブセットをバイナリインジケータに分解する。
論文 参考訳(メタデータ) (2024-08-20T21:25:04Z) - Marginal Density Ratio for Off-Policy Evaluation in Contextual Bandits [41.91108406329159]
文脈的包帯におけるオフ・ポリティ・アセスメント(OPE)は、コストのかかる実験をせずに既存のデータを用いて新しいポリシーを評価するために不可欠である。
我々は、文脈的盗賊のための新しいOPE推定器、Marginal Ratio (MR) 推定器を導入する。
論文 参考訳(メタデータ) (2023-12-03T17:04:57Z) - Doubly Robust Estimator for Off-Policy Evaluation with Large Action
Spaces [0.951828574518325]
大規模行動空間を持つ文脈的帯域設定におけるオフ・ポリティ・アセスメントについて検討する。
ベンチマーク評価者は 厳しい偏見と ばらつきのトレードオフに苦しむ
本稿では,これらの制約を克服するために,Marginalized Doubly Robust (MDR) 推定器を提案する。
論文 参考訳(メタデータ) (2023-08-07T10:00:07Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Domain-Specific Risk Minimization for Out-of-Distribution Generalization [104.17683265084757]
まず、適応性ギャップを明示的に考慮した一般化境界を確立する。
本稿では,目標に対するより良い仮説の選択を導くための効果的なギャップ推定法を提案する。
もう1つの方法は、オンラインターゲットサンプルを用いてモデルパラメータを適応させることにより、ギャップを最小化することである。
論文 参考訳(メタデータ) (2022-08-18T06:42:49Z) - Off-Policy Evaluation for Large Action Spaces via Embeddings [36.42838320396534]
文脈的包帯におけるオフ政治評価(OPE)は、現実世界のシステムで急速に採用されている。
既存のOPE推定器は、アクションの数が大きいと著しく劣化する。
我々は,アクション埋め込みがアクション空間の構造を提供する際に,余分な重み付けを生かした新しいOPE推定器を提案する。
論文 参考訳(メタデータ) (2022-02-13T14:00:09Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Off-Policy Evaluation via the Regularized Lagrangian [110.28927184857478]
最近提案された分布補正推定(DICE)ファミリーは, 行動に依存しないデータを用いた非政治的評価において, 技術の現状を推し進めている。
本稿では,これらを線形プログラムの正規化ラグランジアンとして統一する。
双対解は、安定性と推定バイアスの間のトレードオフをナビゲートする際の柔軟性を向上し、一般的にはより優れた見積もりを提供する。
論文 参考訳(メタデータ) (2020-07-07T13:45:56Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。