論文の概要: Offline Recommender System Evaluation under Unobserved Confounding
- arxiv url: http://arxiv.org/abs/2309.04222v1
- Date: Fri, 8 Sep 2023 09:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 13:54:03.371033
- Title: Offline Recommender System Evaluation under Unobserved Confounding
- Title(参考訳): 観測不能条件下でのオフラインリコメンダシステム評価
- Authors: Olivier Jeunen and Ben London
- Abstract要約: オフライン推定手法により,ログデータから意思決定ポリシーを学習し,評価することができる。
この仕事を行う重要な前提は、観測されていない共同設立者がいないことである。
この研究は、保守されていない共同ファウンダーの存在下で、政治外の見積もりを行うときに生じる問題を強調することを目的としている。
- 参考スコア(独自算出の注目度): 5.4208903577329375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-Policy Estimation (OPE) methods allow us to learn and evaluate
decision-making policies from logged data. This makes them an attractive choice
for the offline evaluation of recommender systems, and several recent works
have reported successful adoption of OPE methods to this end. An important
assumption that makes this work is the absence of unobserved confounders:
random variables that influence both actions and rewards at data collection
time. Because the data collection policy is typically under the practitioner's
control, the unconfoundedness assumption is often left implicit, and its
violations are rarely dealt with in the existing literature.
This work aims to highlight the problems that arise when performing
off-policy estimation in the presence of unobserved confounders, specifically
focusing on a recommendation use-case. We focus on policy-based estimators,
where the logging propensities are learned from logged data. We characterise
the statistical bias that arises due to confounding, and show how existing
diagnostics are unable to uncover such cases. Because the bias depends directly
on the true and unobserved logging propensities, it is non-identifiable. As the
unconfoundedness assumption is famously untestable, this becomes especially
problematic. This paper emphasises this common, yet often overlooked issue.
Through synthetic data, we empirically show how na\"ive propensity estimation
under confounding can lead to severely biased metric estimates that are allowed
to fly under the radar. We aim to cultivate an awareness among researchers and
practitioners of this important problem, and touch upon potential research
directions towards mitigating its effects.
- Abstract(参考訳): オフポリシー推定(OPE)手法により,ログデータから意思決定ポリシーを学習し,評価することができる。
これにより、リコメンデータシステムのオフライン評価に魅力的な選択となり、最近の研究でOPEメソッドの採用が成功していると報告されている。
この作業を行う重要な前提は、データ収集時にアクションと報酬の両方に影響を与えるランダム変数(unobserved confounders)が存在しないことである。
データ収集ポリシーは一般的に実践者の管理下にあるため、未確立の仮定はしばしば暗黙的に残され、その違反は既存の文献ではほとんど扱われない。
この研究は、観察されていない共同ファウンダーの存在下で、特にレコメンデーションユースケースに焦点を当てて、オフポリシー推定を行う際に生じる問題を強調することを目的としている。
ログデータからログの妥当性を学習するポリシベースの推定器に注目した。
本研究は,コンファウンディングによって生じる統計的バイアスを特徴とし,既存の診断がいかにしてそのような症例を解明できないかを示す。
バイアスは真と未観測のロギング確率に直接依存するため、識別不能である。
根拠のない仮定は、明らかにテスト不可能であるため、これは特に問題となる。
本稿では,この共通点を強調するが,しばしば見過ごされる。
合成データを用いて, コンファウンディング下のna\"ive propensity estimationが, レーダー下を飛べる重度のバイアス付きメトリック推定にどのようにつながるかを実証的に示す。
我々は,この重要な問題に対する研究者や実践者の意識を育み,その効果を緩和するための潜在的研究の方向性に触れることを目的としている。
関連論文リスト
- Data Poisoning Attacks on Off-Policy Policy Evaluation Methods [38.68161633374251]
本研究は,OPE手法の差分摂動に対する感度を調査するための最初の試みである。
我々は、ロバストな統計から影響関数を活用する汎用データ中毒攻撃フレームワークを設計し、ポリシー値推定における誤差を最大化する摂動を慎重に構築する。
以上の結果から,多くの既存OPE法は, 逆方向の摂動であっても, データ中毒攻撃を受ける場合, 誤差が大きい値の推定値を生成する傾向が示唆された。
論文 参考訳(メタデータ) (2024-04-06T19:27:57Z) - Too Good To Be True: performance overestimation in (re)current practices
for Human Activity Recognition [49.1574468325115]
データセグメンテーションのためのスライディングウィンドウと、標準のランダムk倍のクロスバリデーションが続くと、バイアスのある結果が得られる。
この問題に対する科学界の認識を高めることは重要であり、その否定的な影響は見落とされつつある。
異なるタイプのデータセットと異なるタイプの分類モデルを用いたいくつかの実験により、問題を示し、メソッドやデータセットとは独立して持続することを示すことができる。
論文 参考訳(メタデータ) (2023-10-18T13:24:05Z) - Delphic Offline Reinforcement Learning under Nonidentifiable Hidden
Confounding [10.315867984674032]
偏見的不確実性と呼ばれる隠れ共起バイアスによる不確実性の定義を提案する。
提案手法は,3種類の不確かさを推定し,それらを考慮した悲観的なオフラインRLアルゴリズムを構築するための実用的手法である。
この結果から,非同定不能な隠れ共起バイアスを緩和して,オフラインRLソリューションを実際に改善できることが示唆された。
論文 参考訳(メタデータ) (2023-06-01T21:27:22Z) - A Unified Framework of Policy Learning for Contextual Bandit with
Confounding Bias and Missing Observations [108.89353070722497]
本研究では,観測データを用いた最適ポリシの獲得を目的とした,オフラインのコンテキスト的帯域幅問題について検討する。
本稿では、積分方程式系の解として報酬関数を形成するCausal-Adjusted Pessimistic(CAP)ポリシー学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T15:17:31Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Debiasing Recommendation by Learning Identifiable Latent Confounders [49.16119112336605]
コンバウンディングバイアスは、ユーザの露出とフィードバックの両方に影響を与える未測定変数の存在によって生じる。
既存の手法では,(1) 未測定変数について不確定な仮定を行うか,(2) 潜伏した共同創設者を直接ユーザの露出から推測する。
本稿では、上記の非識別問題の解決にプロキシ変数の集合を利用する新しい方法、すなわち、識別可能なデコノウ(iDCF)を提案する。
論文 参考訳(メタデータ) (2023-02-10T05:10:26Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Model-Free and Model-Based Policy Evaluation when Causality is Uncertain [7.858296711223292]
政治外の評価では、力学に影響を及ぼし、未知の行動ポリシーによって使用される観測されていない変数が存在する可能性がある。
我々は、これらの観測されていない共同設立者に対する感度を有限の地平線で評価するために、最悪のケース境界を開発する。
頑健なMDPを持つモデルベースアプローチは、動的にドメイン知識を活用することにより、よりシャープな下位境界を与えることを示す。
論文 参考訳(メタデータ) (2022-04-02T23:40:15Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。