論文の概要: CANDOR: Counterfactual ANnotated DOubly Robust Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2412.08052v1
- Date: Wed, 11 Dec 2024 02:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:04:02.282856
- Title: CANDOR: Counterfactual ANnotated DOubly Robust Off-Policy Evaluation
- Title(参考訳): CANDOR:2倍のロバストなオフ・ポリティクス評価
- Authors: Aishwarya Mandyam, Shengpu Tang, Jiayu Yao, Jenna Wiens, Barbara E. Engelhardt,
- Abstract要約: 二重ロバスト(DR)原理に着想を得たOPE推定器群を提案する。
DR推定器は、重要サンプリング(IS)と報酬モデル推定を組み合わせた直接法(DM)である。
推定器のDM部分における不完全なアノテーションの使用は、IS部分で使用するのとは対照的に、アノテーションを利用するのが最善であることを示す。
- 参考スコア(独自算出の注目度): 11.175156622314635
- License:
- Abstract: Off-policy evaluation (OPE) provides safety guarantees by estimating the performance of a policy before deployment. Recent work introduced IS+, an importance sampling (IS) estimator that uses expert-annotated counterfactual samples to improve behavior dataset coverage. However, IS estimators are known to have high variance; furthermore, the performance of IS+ deteriorates when annotations are imperfect. In this work, we propose a family of OPE estimators inspired by the doubly robust (DR) principle. A DR estimator combines IS with a reward model estimate, known as the direct method (DM), and offers favorable statistical guarantees. We propose three strategies for incorporating counterfactual annotations into a DR-inspired estimator and analyze their properties under various realistic settings. We prove that using imperfect annotations in the DM part of the estimator best leverages the annotations, as opposed to using them in the IS part. To support our theoretical findings, we evaluate the proposed estimators in three contextual bandit environments. Our empirical results show that when the reward model is misspecified and the annotations are imperfect, it is most beneficial to use the annotations only in the DM portion of a DR estimator. Based on these theoretical and empirical insights, we provide a practical guide for using counterfactual annotations in different realistic settings.
- Abstract(参考訳): オフ政治評価(OPE)は、デプロイ前にポリシーのパフォーマンスを見積もることで安全性を保証する。
最近の研究は、専門家が注釈付けした反ファクトサンプルを使用して行動データセットのカバレッジを改善する、重要サンプリング(IS)推定器であるIS+を導入した。
しかし、IS推定器は高いばらつきがあることが知られており、さらに、アノテーションが不完全な場合、IS+の性能は低下する。
本研究では,2重ロバスト(DR)原理に着想を得たOPE推定器群を提案する。
DR推定器は、ISと報酬モデルの推定を結合し、DM(Direct Method)と呼ばれ、良好な統計的保証を提供する。
DRにインスパイアされた推定器に偽物アノテーションを組み込むための3つの戦略を提案し,その特性を様々な現実的条件下で解析する。
推定器のDM部分における不完全なアノテーションの使用は、IS部分で使用するのとは対照的に、アノテーションを利用するのが最善であることを示す。
理論的知見を裏付けるために,提案した推定器を3つの文脈帯状環境において評価した。
実験の結果,報酬モデルが不明確であり,アノテーションが不完全である場合には,DR推定器のDM部分のみにアノテーションを使用することが最も有益であることがわかった。
これらの理論的および実証的な洞察に基づいて、現実的な異なる設定で反現実的アノテーションを使用するための実践的なガイドを提供する。
関連論文リスト
- Covariate Assisted Entity Ranking with Sparse Intrinsic Scores [3.2839905453386162]
我々は,新しいモデル同定条件を導入し,正規化された最大推定値の統計率について検討する。
また,本手法を潜在固有スコアを持たないモデルに対する適合性テストに適用する。
論文 参考訳(メタデータ) (2024-07-09T19:58:54Z) - Reliable Confidence Intervals for Information Retrieval Evaluation Using Generative A.I [39.92942310783174]
大規模言語モデル(LLM)は、相対的に計算コストの少ない大規模で関連アノテーションを生成することができる。
本稿では,予測型推論と共形リスク制御に基づく2つの手法を提案する。
実験の結果,CIは評価のばらつきと偏りの両方を正確に捉えていることがわかった。
論文 参考訳(メタデータ) (2024-07-02T17:44:00Z) - Doubly-Robust Off-Policy Evaluation with Estimated Logging Policy [11.16777821381608]
本稿では,マルコフ決定プロセスのための新しい二重ロバスト(DR)オフ・ポリティクス (DRUnknown) を導入し,ログポリシと値関数の双方が未知な状況を想定した。
提案した推定器は,まずログポリシを推定し,その評価器の分散を最小化し,ログポリシの効果を考慮し,値関数モデルを推定する。
論文 参考訳(メタデータ) (2024-04-02T10:42:44Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Doubly Robust Estimator for Off-Policy Evaluation with Large Action
Spaces [0.951828574518325]
大規模行動空間を持つ文脈的帯域設定におけるオフ・ポリティ・アセスメントについて検討する。
ベンチマーク評価者は 厳しい偏見と ばらつきのトレードオフに苦しむ
本稿では,これらの制約を克服するために,Marginalized Doubly Robust (MDR) 推定器を提案する。
論文 参考訳(メタデータ) (2023-08-07T10:00:07Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-19T20:00:44Z) - Debiased Explainable Pairwise Ranking from Implicit Feedback [0.3867363075280543]
BPR(Bayesian Personalized Ranking)に焦点をあてる。
BPRはアウトプットを説明しないブラックボックスモデルであり、ユーザのレコメンデーションに対する信頼を制限する。
本稿では,項目に基づく説明とともにレコメンデーションを生成する新しい説明可能な損失関数と,それに対応する行列分解モデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。