論文の概要: Ranking Policy Learning via Marketplace Expected Value Estimation From Observational Data
- arxiv url: http://arxiv.org/abs/2410.04568v1
- Date: Sun, 6 Oct 2024 17:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 06:36:17.396933
- Title: Ranking Policy Learning via Marketplace Expected Value Estimation From Observational Data
- Title(参考訳): 観測データによる価値推定を期待するマーケットプレースによるランク付け政策学習
- Authors: Ehsan Ebrahimzadeh, Nikhil Monga, Hang Gao, Alex Cozzi, Abraham Bagherjeiran,
- Abstract要約: 両面のeコマースマーケットプレースにおいて,検索エンジンやレコメンデーションエンジンのランキングポリシーを学習する問題について検討する。
ランキングポリシは、値割当機構として、検索したアイテムを指定されたスロットに割り当てる。
我々は、観測データから、市場が期待する報酬に対する実証的な見積もりを構築した。
- 参考スコア(独自算出の注目度): 8.985446716914515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a decision making framework to cast the problem of learning a ranking policy for search or recommendation engines in a two-sided e-commerce marketplace as an expected reward optimization problem using observational data. As a value allocation mechanism, the ranking policy allocates retrieved items to the designated slots so as to maximize the user utility from the slotted items, at any given stage of the shopping journey. The objective of this allocation can in turn be defined with respect to the underlying probabilistic user browsing model as the expected number of interaction events on presented items matching the user intent, given the ranking context. Through recognizing the effect of ranking as an intervention action to inform users' interactions with slotted items and the corresponding economic value of the interaction events for the marketplace, we formulate the expected reward of the marketplace as the collective value from all presented ranking actions. The key element in this formulation is a notion of context value distribution, which signifies not only the attribution of value to ranking interventions within a session but also the distribution of marketplace reward across user sessions. We build empirical estimates for the expected reward of the marketplace from observational data that account for the heterogeneity of economic value across session contexts as well as the distribution shifts in learning from observational user activity data. The ranking policy can then be trained by optimizing the empirical expected reward estimates via standard Bayesian inference techniques. We report empirical results for a product search ranking task in a major e-commerce platform demonstrating the fundamental trade-offs governed by ranking polices trained on empirical reward estimates with respect to extreme choices of the context value distribution.
- Abstract(参考訳): 本研究では,2面のeコマース市場における検索・レコメンデーションエンジンのランキングポリシーを,観測データを用いた期待報酬最適化問題として学習するための意思決定フレームワークを開発する。
ランキングポリシは、検索したアイテムを指定されたスロットに割り当て、そのスロットされたアイテムから、ショッピング旅行の任意の段階で、ユーザユーティリティを最大化する。
このアロケーションの目的は、ユーザ意図に合致する提示項目におけるインタラクションイベントの期待数として、下位の確率的ユーザブラウジングモデルに対して、ランキングコンテキストから定義することができる。
市場におけるスロットアイテムとのインタラクションを通知する介入行動としてランキングが与える影響を認識させることにより、提示されたすべてのランキング行動から、市場が期待する報酬を集合価値として定式化する。
この定式化の鍵となる要素は、コンテキスト値の分布の概念であり、これはセッション内のランク付け介入に対する価値の属性だけでなく、ユーザセッション間でのマーケットプレース報酬の分布も意味している。
我々は、セッションコンテキスト間の経済価値の不均一性を考慮した観察データと、観察ユーザ活動データからの学習における学習の分布変化から、市場が期待する報酬に対する実証的な見積もりを構築した。
ランク付けポリシーは、標準的なベイズ推論技術を用いて経験的期待報酬推定を最適化することで訓練することができる。
本稿では,経験的報酬推定に基づいて訓練された警察官による基本的なトレードオフを,文脈値分布の極端な選択に関して実証的報酬推定に基づいて示す,大規模なeコマースプラットフォームにおける製品検索ランキングタスクの実証結果について報告する。
関連論文リスト
- Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - Uniting contrastive and generative learning for event sequences models [51.547576949425604]
本研究では,2つの自己指導型学習手法 – 例えば,コントラスト学習と,潜在空間におけるマスクイベントの復元に基づく生成的アプローチ – の統合について検討する。
いくつかの公開データセットで行った実験は、シーケンス分類と次点型予測に焦点を合わせ、統合された手法が個々の手法と比較して優れた性能を達成することを示した。
論文 参考訳(メタデータ) (2024-08-19T13:47:17Z) - Maximizing the Success Probability of Policy Allocations in Online
Systems [5.485872703839928]
本稿では,個々の入札要求ではなく,ユーザタイムラインのレベルでの問題を検討する。
ユーザに対してポリシーを最適に割り当てるために、典型的な複数の処理割り当て手法は、knapsackのような問題を解決する。
本稿では,政策アロケーションの探索を目的としたSuccessProMaxアルゴリズムについて紹介する。
論文 参考訳(メタデータ) (2023-12-26T10:55:33Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - A Meta-learning based Stacked Regression Approach for Customer Lifetime
Value Prediction [3.6002910014361857]
顧客ライフタイムバリュー(英:Customer Lifetime Value、CLV)とは、取引/購入の合計金額である。
CLVは、銀行、保険、オンラインエンタテインメント、ゲーム、Eコマースなど、いくつかの異なるビジネスドメインでアプリケーションを見つける。
本稿では,効果的かつ包括的かつシンプルかつ解釈可能なシステムを提案する。
論文 参考訳(メタデータ) (2023-08-07T14:22:02Z) - Click-Conversion Multi-Task Model with Position Bias Mitigation for
Sponsored Search in eCommerce [51.211924408864355]
位置認識型クリック変換(PACC)と位置埋め込み(PACC-PE)によるPACCの2つの位置バイアスのない予測モデルを提案する。
Eコマースが支援する製品検索データセットの実験により、提案したモデルではランキングの有効性が向上し、CTRとCVRの予測における位置バイアスを大幅に軽減できることが示された。
論文 参考訳(メタデータ) (2023-07-29T19:41:16Z) - The Role of Relevance in Fair Ranking [1.5469452301122177]
妥当性スコアは、公正な介入を導くために、望ましい基準のセットを満たすべきであると論じる。
次に、偏りのあるユーザクリックデータから推定される関連性のケーススタディにおいて、これらの基準がすべて満たされているわけではないことを実証的に示す。
分析と結果から,関連収集・生成への新たなアプローチの必要性が浮き彫りになっている。
論文 参考訳(メタデータ) (2023-05-09T16:58:23Z) - Doubly Robust Off-Policy Evaluation for Ranking Policies under the
Cascade Behavior Model [11.101369123145588]
ランキングポリシのオフライン評価は、ログデータのみを使用して、新たなランキングポリシのパフォーマンス推定を可能にする。
従来の研究では、アイテム空間をトラクタブルにするために、ユーザ行動に関するいくつかの仮定が紹介されていた。
本稿では,ランキングの上位位置から次々にアイテムと対話するカスケード2倍ロバスト推定器を提案する。
論文 参考訳(メタデータ) (2022-02-03T12:42:33Z) - Loss Functions for Discrete Contextual Pricing with Observational Data [8.661128420558349]
顧客および/または製品の特徴に基づいて、各顧客がコンテキスト化された価格で提供される価格設定について検討する。
顧客の真の価値よりも,各顧客が所定の価格で商品を購入しているかどうかを観察する。
論文 参考訳(メタデータ) (2021-11-18T20:12:57Z) - Fairness, Welfare, and Equity in Personalized Pricing [88.9134799076718]
顧客特性に基づくパーソナライズ価格における公平性、福祉、株式の配慮の相互作用について検討する。
選択ワクチンの価格補助金と、マイクロクレジットの下流結果に対するパーソナライズされた利率の影響の2つの設定において、パーソナライズされた価格の潜在的利点を示す。
論文 参考訳(メタデータ) (2020-12-21T01:01:56Z) - Combining Task Predictors via Enhancing Joint Predictability [53.46348489300652]
そこで本研究では,目標予測能力に基づいて参照の関連性を測定し,その関連性を高めるための新しい予測器組合せアルゴリズムを提案する。
提案アルゴリズムはベイズフレームワークを用いて,すべての参照の関連性について共同で評価する。
視覚属性ランキングとマルチクラス分類シナリオから得られた実世界の7つのデータセットの実験に基づいて,本アルゴリズムが性能向上に寄与し,既存の予測器の組み合わせアプローチの適用範囲を広くすることを示した。
論文 参考訳(メタデータ) (2020-07-15T21:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。