Fugu-MT 論文翻訳(概要): Doubly Robust Estimator for Off-Policy Evaluation with Large Action Spaces

論文の概要: Doubly Robust Estimator for Off-Policy Evaluation with Large Action Spaces

arxiv url: http://arxiv.org/abs/2308.03443v2
Date: Wed, 9 Aug 2023 10:34:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-10 10:51:54.774167
Title: Doubly Robust Estimator for Off-Policy Evaluation with Large Action Spaces
Title（参考訳）: 大規模行動空間を用いたオフポリティ評価のための二重ロバスト推定器
Authors: Tatsuhiro Shimizu, Laura Forastiere
Abstract要約: 大規模行動空間を持つコンテキスト的帯域設定におけるOff-Policy Evaluation(OPE)について検討する。ベンチマーク評価者は厳しい偏見とばらつきのトレードオフに苦しむ動作の埋め込みによる推定器のばらつきを軽減するために,MIPS(Marginalized Inverse Propensity Scoring)を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study Off-Policy Evaluation (OPE) in contextual bandit settings with large action spaces. The benchmark estimators suffer from severe bias and variance tradeoffs. Parametric approaches suffer from bias due to difficulty specifying the correct model, whereas ones with importance weight suffer from variance. To overcome these limitations, Marginalized Inverse Propensity Scoring (MIPS) was proposed to mitigate the estimator's variance via embeddings of an action. To make the estimator more accurate, we propose the doubly robust estimator of MIPS called the Marginalized Doubly Robust (MDR) estimator. Theoretical analysis shows that the proposed estimator is unbiased under weaker assumptions than MIPS while maintaining variance reduction against IPS, which was the main advantage of MIPS. The empirical experiment verifies the supremacy of MDR against existing estimators.
Abstract（参考訳）: 大規模行動空間を持つコンテキスト的帯域設定におけるオフ・ポリティ・アセスメント(OPE)について検討する。ベンチマーク評価者は厳しいバイアスと分散トレードオフに苦しむ。パラメトリックアプローチは正しいモデルを特定するのが難しいためバイアスに悩まされるが、重みのあるアプローチはばらつきに悩まされる。これらの制限を克服するため、推定器の分散を緩和するためにMarginalized Inverse Propensity Scoring (MIPS) が提案された。推定器をより正確にするために,mprの2重ロバストな推定器であるmarginalized doubly robust (mdr) estimatorを提案する。理論的解析により,提案した推定器はMIPSよりも弱い仮定の下では偏りがなく,IPSに対する分散低減は維持されている。実証実験は、既存の推定値に対するMDRの優位性を検証する。

関連論文リスト

Observationally Informed Adaptive Causal Experimental Design [55.998153710215654]
本稿では,観測モデルを基礎的先行として活用する新たなパラダイムであるアクティブ残留学習を提案する。このアプローチは、実験的な焦点を、目標因果量の学習から、観察バイアスの補正に必要な残差を効率的に推定するへとシフトさせる。合成および半合成ベンチマークの実験は、R-Designがベースラインを大幅に上回ることを示した。
論文参考訳（メタデータ） (2026-03-04T06:52:37Z)
Improving Value-based Process Verifier via Low-Cost Variance Reduction [24.609940184050043]
大規模言語モデル(LLM)は、幅広いタスクにおいて顕著な成功を収めた。しかし、特に数学のような複雑な分野において、それらの推論能力は依然として重要な課題である。正解につながる部分的推論連鎖の確率を推定する値ベースのプロセス検証器は、推論を改善するための有望なアプローチである。
論文参考訳（メタデータ） (2025-08-14T11:22:29Z)
Log-Sum-Exponential Estimator for Off-Policy Evaluation and Learning [50.93804891554481]
従来の逆確率スコア推定よりも優れた対数推定演算子(log-sum-exponential (LSE)演算子)に基づく新しい推定器を提案する。我々のLSE推定器は, 重み付き条件下での分散低減とロバスト性を示す。政治以外の学習シナリオでは、LSE推定器と最適ポリシーの間のパフォーマンスギャップである後悔の限界を確立します。
論文参考訳（メタデータ） (2025-06-07T17:37:10Z)
CANDOR: Counterfactual ANnotated DOubly Robust Off-Policy Evaluation [11.175156622314635]
二重ロバスト(DR)原理に着想を得たOPE推定器群を提案する。 DR推定器は、重要サンプリング(IS)と報酬モデル推定を組み合わせた直接法(DM)である。推定器のDM部分における不完全なアノテーションの使用は、IS部分で使用するのとは対照的に、アノテーションを利用するのが最善であることを示す。
論文参考訳（メタデータ） (2024-12-11T02:59:46Z)
Perturbation-Invariant Adversarial Training for Neural Ranking Models: Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで敵の例を作れますこの脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文参考訳（メタデータ） (2023-12-16T05:38:39Z)
Marginal Density Ratio for Off-Policy Evaluation in Contextual Bandits [41.91108406329159]
文脈的包帯におけるオフ・ポリティ・アセスメント(OPE)は、コストのかかる実験をせずに既存のデータを用いて新しいポリシーを評価するために不可欠である。我々は、文脈的盗賊のための新しいOPE推定器、Marginal Ratio (MR) 推定器を導入する。
論文参考訳（メタデータ） (2023-12-03T17:04:57Z)
Off-Policy Evaluation for Large Action Spaces via Conjunct Effect Modeling [30.835774920236872]
大規模離散行動空間に対する文脈的帯域ポリシーの非政治的評価について検討する。共役効果モデル (CEM) に基づく新しい推定器であるOffCEMを提案し, 因果効果をクラスター効果に分解し, 残留効果を示す。実験により、OFCEMは特に多くのアクションが存在する場合、OPEを大幅に改善することが示された。
論文参考訳（メタデータ） (2023-05-14T04:16:40Z)
Off-Policy Risk Assessment in Markov Decision Processes [15.225153671736201]
我々はマルコフ決定過程(MDPs)におけるリターンのCDFのための最初の2倍ロバスト(DR)推定器を開発する。この推定器は、分散を著しく少なくし、モデルが十分に特定されたとき、クレーマー・ラオ分散の低い境界を達成する。オフポリチックCDFとリスク推定のための最初のミニマックス下限を導出する。
論文参考訳（メタデータ） (2022-09-21T15:40:59Z)
Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。 KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-19T20:00:44Z)
Off-Policy Evaluation for Large Action Spaces via Embeddings [36.42838320396534]
文脈的包帯におけるオフ政治評価(OPE)は、現実世界のシステムで急速に採用されている。既存のOPE推定器は、アクションの数が大きいと著しく劣化する。我々は,アクション埋め込みがアクション空間の構造を提供する際に,余分な重み付けを生かした新しいOPE推定器を提案する。
論文参考訳（メタデータ） (2022-02-13T14:00:09Z)
Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。 BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文参考訳（メタデータ） (2021-10-24T10:23:51Z)
Tight Mutual Information Estimation With Contrastive Fenchel-Legendre Optimization [69.07420650261649]
我々はFLOと呼ばれる新しい,シンプルで強力なコントラストMI推定器を提案する。実証的に、我々のFLO推定器は前者の限界を克服し、より効率的に学習する。 FLOの有効性は、広範囲なベンチマークを用いて検証され、実際のMI推定におけるトレードオフも明らかにされる。
論文参考訳（メタデータ） (2021-07-02T15:20:41Z)
Enhanced Doubly Robust Learning for Debiasing Post-click Conversion Rate Estimation [29.27760413892272]
クリック後の変換は、ユーザの好みを示す強いシグナルであり、レコメンデーションシステムを構築する上で有益である。現在、ほとんどの既存の手法は、対実学習を利用してレコメンデーションシステムを破壊している。本稿では,MRDR推定のための新しい二重学習手法を提案し,誤差計算を一般的なCVR推定に変換する。
論文参考訳（メタデータ） (2021-05-28T06:59:49Z)
Nonparametric Estimation of the Fisher Information and Its Applications [82.00720226775964]
本稿では,大きさn$のランダムサンプルからフィッシャー情報の位置推定の問題について考察する。 Bhattacharyaにより提案された推定器を再検討し、収束率の向上を導出する。クリッピング推定器と呼ばれる新しい推定器を提案する。
論文参考訳（メタデータ） (2020-05-07T17:21:56Z)
Machine learning for causal inference: on the use of cross-fit estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文参考訳（メタデータ） (2020-04-21T23:09:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。