論文の概要: Off-Policy Evaluation and Learning for Matching Markets
- arxiv url: http://arxiv.org/abs/2507.13608v1
- Date: Fri, 18 Jul 2025 02:23:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.169222
- Title: Off-Policy Evaluation and Learning for Matching Markets
- Title(参考訳): マッチ市場におけるオフ・ポリティ・アセスメントと学習
- Authors: Yudai Hayashi, Shuhei Goda, Yuta Saito,
- Abstract要約: オフラインログデータのみを使用してレコメンデーションポリシーの評価を可能にすることで、オフポリシー評価(OPE)が重要な役割を果たす。
我々は、マッチング市場向けに特別に設計された新しいOPE推定器、textitDiPS、textitDPRを提案する。
本手法は, 直接法(DM), 逆確率スコア(IPS), 二重ロバスト(DR)推定器の要素を組み合わせる。
- 参考スコア(独自算出の注目度): 15.585641615174623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Matching users based on mutual preferences is a fundamental aspect of services driven by reciprocal recommendations, such as job search and dating applications. Although A/B tests remain the gold standard for evaluating new policies in recommender systems for matching markets, it is costly and impractical for frequent policy updates. Off-Policy Evaluation (OPE) thus plays a crucial role by enabling the evaluation of recommendation policies using only offline logged data naturally collected on the platform. However, unlike conventional recommendation settings, the large scale and bidirectional nature of user interactions in matching platforms introduce variance issues and exacerbate reward sparsity, making standard OPE methods unreliable. To address these challenges and facilitate effective offline evaluation, we propose novel OPE estimators, \textit{DiPS} and \textit{DPR}, specifically designed for matching markets. Our methods combine elements of the Direct Method (DM), Inverse Propensity Score (IPS), and Doubly Robust (DR) estimators while incorporating intermediate labels, such as initial engagement signals, to achieve better bias-variance control in matching markets. Theoretically, we derive the bias and variance of the proposed estimators and demonstrate their advantages over conventional methods. Furthermore, we show that these estimators can be seamlessly extended to offline policy learning methods for improving recommendation policies for making more matches. We empirically evaluate our methods through experiments on both synthetic data and A/B testing logs from a real job-matching platform. The empirical results highlight the superiority of our approach over existing methods in off-policy evaluation and learning tasks for a variety of configurations.
- Abstract(参考訳): 相互選好に基づくユーザマッチングは、ジョブ検索やデートアプリケーションなど、相互に推奨されるサービスの基本的側面である。
A/Bテストは、市場に対応するためのレコメンデーションシステムにおいて、新しい政策を評価するための金の標準であり続けているが、頻繁な政策更新には費用がかかり実用的ではない。
オフポリシー評価(OPE)は、プラットフォーム上で自然に収集されたオフラインログデータのみを使用してレコメンデーションポリシーの評価を可能にすることで、重要な役割を果たす。
しかし、従来のレコメンデーション設定とは異なり、マッチングプラットフォームにおけるユーザインタラクションの大規模かつ双方向性は、分散問題を導入し、報酬空間を悪化させ、標準のOPEメソッドの信頼性を損なう。
これらの課題に対処し、効果的なオフライン評価を容易にするために、マッチング市場向けに特別に設計された新しいOPE推定器である \textit{DiPS} と \textit{DPR} を提案する。
提案手法は, 直接法 (DM), 逆確率スコア (IPS), 二重ロバスト (DR) 推定器の要素を結合し, 初期エンゲージメント信号などの中間ラベルを組み込んで, 整合市場におけるバイアス分散制御の改善を図る。
理論的には,提案した推定器のバイアスとばらつきを導出し,従来の手法よりも優位性を示す。
さらに,これらの推定器をオフラインのポリシー学習手法にシームレスに拡張することで,マッチングをより多く行うための推奨ポリシーを改善することができることを示す。
実ジョブマッチングプラットフォームからの合成データとA/Bテストログの両方の実験により,本手法を実証的に評価した。
実証実験の結果は, 様々な構成の非政治的評価や学習タスクにおいて, 既存の手法に対するアプローチの優位性を強調した。
関連論文リスト
- Revisiting Reciprocal Recommender Systems: Metrics, Formulation, and Method [60.364834418531366]
RRSの性能を包括的かつ正確に評価する5つの新しい評価指標を提案する。
因果的観点からRSを定式化し、二元的介入として勧告を定式化する。
提案手法では,結果の一致を最大化する手法を提案する。
論文 参考訳(メタデータ) (2024-08-19T07:21:02Z) - $Δ\text{-}{\rm OPE}$: Off-Policy Estimation with Pairs of Policies [13.528097424046823]
Inverse Propensity Scoring estimator に基づいた$Deltatext-rm OPE$メソッドを提案する。
シミュレーション,オフライン,オンライン実験により,本手法は評価タスクと学習タスクの両方のパフォーマンスを著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-05-16T12:04:55Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - An IPW-based Unbiased Ranking Metric in Two-sided Markets [3.845857580909374]
本稿では,2つの市場におけるユーザ間のバイアスの複雑な相互作用について論じる。
そこで我々は,2面IPWという新しい推定器を提案し,その位置ベースを両面IPWと呼ぶ。
論文 参考訳(メタデータ) (2023-07-14T01:44:03Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Evaluating the Robustness of Off-Policy Evaluation [10.760026478889664]
Off-policy Evaluation (OPE)は、オフラインログデータのみを活用する仮説的ポリシーの性能を評価する。
オンラインインタラクションが高利得と高価な設定を含むアプリケーションでは特に有用である。
我々は,OPE推定器のロバスト性を評価する実験手法であるIEOE(Interpretable Evaluation for Offline Evaluation)を開発した。
論文 参考訳(メタデータ) (2021-08-31T09:33:13Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Counterfactual Evaluation of Slate Recommendations with Sequential
Reward Interactions [18.90946044396516]
音楽ストリーミング、ビデオストリーミング、ニュースレコメンデーション、eコマースサービスは、しばしばシーケンシャルな方法でコンテンツを扱う。
したがって、適切なレコメンデーションのシーケンスの提供と評価は、これらのサービスにとって重要な問題である。
そこで本研究では,アナルアンバイアスの少ない報酬の逐次的相互作用が可能な新しい反事実推定器を提案する。
論文 参考訳(メタデータ) (2020-07-25T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。