Fugu-MT 論文翻訳(概要): Off-Policy Evaluation of Ranking Policies under Diverse User Behavior

論文の概要: Off-Policy Evaluation of Ranking Policies under Diverse User Behavior

arxiv url: http://arxiv.org/abs/2306.15098v1
Date: Mon, 26 Jun 2023 22:31:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-28 15:19:13.921498
Title: Off-Policy Evaluation of Ranking Policies under Diverse User Behavior
Title（参考訳）: 異種ユーザ行動下におけるランク付け政策の評価
Authors: Haruka Kiyohara, Masatoshi Uehara, Yusuke Narita, Nobuyuki Shimizu, Yasuo Yamamoto, Yuta Saito
Abstract要約: Inverse Propensity Scoring (IPS) は、大きなアクション空間下での高分散のため、ランキング設定において極めて不正確なものとなる。この研究は、ユーザの振る舞いが多様であり、ユーザコンテキストによって異なるという、はるかに一般的な定式化を探求する。結果,Adaptive IPS (AIPS) と呼ばれる推定器は,複雑なユーザ動作下では非バイアス化可能であることを示す。
参考スコア（独自算出の注目度）: 25.226825574282937
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ranking interfaces are everywhere in online platforms. There is thus an ever growing interest in their Off-Policy Evaluation (OPE), aiming towards an accurate performance evaluation of ranking policies using logged data. A de-facto approach for OPE is Inverse Propensity Scoring (IPS), which provides an unbiased and consistent value estimate. However, it becomes extremely inaccurate in the ranking setup due to its high variance under large action spaces. To deal with this problem, previous studies assume either independent or cascade user behavior, resulting in some ranking versions of IPS. While these estimators are somewhat effective in reducing the variance, all existing estimators apply a single universal assumption to every user, causing excessive bias and variance. Therefore, this work explores a far more general formulation where user behavior is diverse and can vary depending on the user context. We show that the resulting estimator, which we call Adaptive IPS (AIPS), can be unbiased under any complex user behavior. Moreover, AIPS achieves the minimum variance among all unbiased estimators based on IPS. We further develop a procedure to identify the appropriate user behavior model to minimize the mean squared error (MSE) of AIPS in a data-driven fashion. Extensive experiments demonstrate that the empirical accuracy improvement can be significant, enabling effective OPE of ranking systems even under diverse user behavior.
Abstract（参考訳）: ランキングインターフェースは、オンラインプラットフォームの至る所にある。そのため、ログデータを使用したランキングポリシーの正確なパフォーマンス評価を目指して、Off-Policy Evaluation (OPE) への関心が高まっている。 OPEのデファクトアプローチは、不偏で一貫した値推定を提供する逆不等式スコアリング(IPS)である。しかし、大きな行動空間下での分散度が高いため、ランキング設定では極めて不正確になる。この問題に対処するため、以前の研究では、独立系かカスケード系のユーザー行動を想定しており、IPSのランキングバージョンがいくつか存在する。これらの推定子は分散を減らすのに幾分効果的であるが、既存の推定者は全てのユーザーに単一の普遍的な仮定を適用し、過度のバイアスと分散を引き起こす。そこで本研究では,ユーザの行動がより多様で,ユーザコンテキストによって異なる,より一般的な定式化について検討する。結果,Adaptive IPS (AIPS) と呼ばれる推定器は,複雑なユーザ動作下では非バイアス化可能であることを示す。さらに、AIPSは、IPSに基づく全ての非バイアス推定器の最小分散を達成する。さらに,データ駆動方式でAIPSの平均二乗誤差(MSE)を最小化するために,適切なユーザ行動モデルを特定する手順を開発する。広範囲な実験により、経験的精度の向上が重要となり、多様なユーザの振る舞いの下でも、ランキングシステムの効果的なOPEが可能となった。

関連論文リスト

Practical Improvements of A/B Testing with Off-Policy Estimation [51.25970890274447]
従来の手法よりも分散度を低くする非バイアスのオフ・ポリティクス推定器のファミリーを導入する。提案手法の有効性と実用性を理論的に検証した。
論文参考訳（メタデータ） (2025-06-12T13:11:01Z)
Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-07T02:24:44Z)
Off-Policy Evaluation of Ranking Policies via Embedding-Space User Behavior Modeling [0.0]
大規模なランク付け行動空間を有するランキング設定における非政治的評価は、新しいレコメンデーションポリシーを評価する上で不可欠である。我々は2つの新しい仮定を導入する: ランキングに直接的な影響はなく、ユーザー行動モデルがランキングの埋め込み空間に直接的な影響を与えることはない。次に,統計的に望ましい特性を持つ一般化された辺化逆確率スコア推定器を提案する。
論文参考訳（メタデータ） (2025-05-31T07:58:53Z)
Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。学習シナリオにおける同値性に基づく単一のフレームワークを提案する。我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文参考訳（メタデータ） (2024-05-09T12:52:22Z)
Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文参考訳（メタデータ） (2024-05-09T09:08:09Z)
Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文参考訳（メタデータ） (2023-03-11T11:42:26Z)
Inverse Propensity Score based offline estimator for deterministic ranking lists using position bias [0.1269104766024433]
本稿では,位置バイアスモデルを用いた新しいIPS計算手法を提案する。産業規模データに対する2つの異なる実験により,本手法の有効性を検証した。
論文参考訳（メタデータ） (2022-08-31T17:32:04Z)
Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。 CPRは、露出メカニズムを知らずに不偏の推奨を達成する。理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文参考訳（メタデータ） (2022-04-26T09:20:27Z)
Doubly-Robust Estimation for Unbiased Learning-to-Rank from Position-Biased Click Feedback [13.579420996461439]
IPS推定の代わりにランク毎の待遇を期待する新しいDR推定器を提案する。我々の結果は、最適な性能で収束するためには、桁違いに少ないデータポイントを必要とすることを示唆している。
論文参考訳（メタデータ） (2022-03-31T15:38:25Z)
Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model [11.101369123145588]
ランキングポリシのオフライン評価は、ログデータのみを使用して、新たなランキングポリシのパフォーマンス推定を可能にする。従来の研究では、アイテム空間をトラクタブルにするために、ユーザ行動に関するいくつかの仮定が紹介されていた。本稿では,ランキングの上位位置から次々にアイテムと対話するカスケード2倍ロバスト推定器を提案する。
論文参考訳（メタデータ） (2022-02-03T12:42:33Z)
Correcting the User Feedback-Loop Bias for Recommendation Systems [34.44834423714441]
本稿では,レコメンデーションシステムにおいて,ユーザのフィードバックループバイアスを修正するための系統的かつ動的手法を提案する。本手法は,各ユーザの動的評価履歴の埋め込みを学習するためのディープラーニングコンポーネントを含む。実世界のレコメンデーションシステムにおけるユーザフィードバックループバイアスの存在を実証的に検証した。
論文参考訳（メタデータ） (2021-09-13T15:02:55Z)
Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文参考訳（メタデータ） (2021-06-15T06:59:53Z)
Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文参考訳（メタデータ） (2021-04-26T18:54:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。