論文の概要: Balanced Off-Policy Evaluation for Personalized Pricing
- arxiv url: http://arxiv.org/abs/2302.12736v1
- Date: Fri, 24 Feb 2023 16:44:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 13:01:48.311228
- Title: Balanced Off-Policy Evaluation for Personalized Pricing
- Title(参考訳): パーソナライズ価格のバランス付きオフポリティ評価
- Authors: Adam N. Elmachtoub, Vishal Gupta and Yunfan Zhao
- Abstract要約: 我々は、特徴情報、歴史的価格決定、バイナリ実現需要からなるデータを持つパーソナライズされた価格問題を考える。
目標は、機能と価格をマッピングするパーソナライズされた価格ポリシーの、非政治的な評価を行うことだ。
Kallusのバランスの取れた政策評価フレームワークを基盤として、価格アプリケーションに適した新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 3.296526804364952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a personalized pricing problem in which we have data consisting
of feature information, historical pricing decisions, and binary realized
demand. The goal is to perform off-policy evaluation for a new personalized
pricing policy that maps features to prices. Methods based on inverse
propensity weighting (including doubly robust methods) for off-policy
evaluation may perform poorly when the logging policy has little exploration or
is deterministic, which is common in pricing applications. Building on the
balanced policy evaluation framework of Kallus (2018), we propose a new
approach tailored to pricing applications. The key idea is to compute an
estimate that minimizes the worst-case mean squared error or maximizes a
worst-case lower bound on policy performance, where in both cases the
worst-case is taken with respect to a set of possible revenue functions. We
establish theoretical convergence guarantees and empirically demonstrate the
advantage of our approach using a real-world pricing dataset.
- Abstract(参考訳): 我々は,特徴情報,過去の価格決定,二元化需要などからなるデータを有するパーソナライズされた価格問題を考える。
目標は、機能と価格をマッピングするパーソナライズされた価格ポリシーの、外部評価を行うことだ。
逆傾向重み付けに基づく手法(二重ロバストな手法を含む)は、ログポリシーがほとんど探索されていない場合や決定論的でない場合、性能が悪く、価格設定アプリケーションでは一般的である。
Kallus (2018) のバランスの取れた政策評価フレームワークを基盤として、価格アプリケーションに適した新しいアプローチを提案する。
鍵となる考え方は、最悪のケースの平均二乗誤差を最小にするか、または最悪のケースで政策パフォーマンスを最大にするような見積もりを計算することである。
理論的収束保証を確立し、実世界の価格データセットを用いて、我々のアプローチの利点を実証的に実証する。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Personalized Pricing with Invalid Instrumental Variables:
Identification, Estimation, and Policy Learning [5.372349090093469]
本研究は,インストゥルメンタル変数アプローチを用いて,内在性の下でのオフラインパーソナライズド価格について検討する。
Invalid iNsTrumental変数を用いたパーソナライズされたプライシングのための新しいポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2023-02-24T14:50:47Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Convex Loss Functions for Contextual Pricing with Observational
Posted-Price Data [2.538209532048867]
我々は、販売者が以前に提供された価格のサンプルにアクセス可能な、政治的でない価格問題について検討する。
これは、顧客の評価(支払いの意志)のサンプルが観察される、よく研究された設定とは対照的である。
我々の設定では、観測されたデータは歴史的価格政策の影響を受けており、顧客が代替価格にどう反応したかは分かっていません。
論文 参考訳(メタデータ) (2022-02-16T22:35:39Z) - Loss Functions for Discrete Contextual Pricing with Observational Data [8.661128420558349]
顧客および/または製品の特徴に基づいて、各顧客がコンテキスト化された価格で提供される価格設定について検討する。
顧客の真の価値よりも,各顧客が所定の価格で商品を購入しているかどうかを観察する。
論文 参考訳(メタデータ) (2021-11-18T20:12:57Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Confident Off-Policy Evaluation and Selection through Self-Normalized
Importance Weighting [15.985182419152197]
本稿では,任意のターゲットポリシーの値に対する下位境界を計算するための新しい手法を提案する。
この新しいアプローチは、多くの合成データセットと実際のデータセットに基づいて評価されており、主要な競合相手よりも優れていることが判明している。
論文 参考訳(メタデータ) (2020-06-18T12:15:37Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。