論文の概要: From Stream to Pool: Dynamic Pricing Beyond i.i.d. Arrivals
- arxiv url: http://arxiv.org/abs/2310.19220v1
- Date: Mon, 30 Oct 2023 01:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 13:31:46.500175
- Title: From Stream to Pool: Dynamic Pricing Beyond i.i.d. Arrivals
- Title(参考訳): ストリームからプールへ:i.i.d. Arrivalsを超える動的価格設定
- Authors: Titing Cui, Su Jia, Thomas Lavastida
- Abstract要約: 適応的でないポリシーを効率的に計算するミニマックス近位アルゴリズムを提案する。
また,新しいエンフェデビアス法に基づく適応型エンフェレーンアーン政策を提案する。
- 参考スコア(独自算出の注目度): 6.3305050339413675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dynamic pricing problem has been extensively studied under the
\textbf{stream} model: A stream of customers arrives sequentially, each with an
independently and identically distributed valuation. However, this formulation
is not entirely reflective of the real world. In many scenarios, high-valuation
customers tend to make purchases earlier and leave the market, leading to a
\emph{shift} in the valuation distribution. Thus motivated, we consider a model
where a \textbf{pool} of $n$ non-strategic unit-demand customers interact
repeatedly with the seller. Each customer monitors the price intermittently
according to an independent Poisson process and makes a purchase if the
observed price is lower than her \emph{private} valuation, whereupon she leaves
the market permanently. We present a minimax \emph{optimal} algorithm that
efficiently computes a non-adaptive policy which guarantees a $1/k$ fraction of
the optimal revenue, given any set of $k$ prices. Moreover, we present an
adaptive \emph{learn-then-earn} policy based on a novel \emph{debiasing}
approach, and prove an $\tilde O(kn^{3/4})$ regret bound. We further improve
the bound to $\tilde O(k^{3/4} n^{3/4})$ using martingale concentration
inequalities.
- Abstract(参考訳): 動的価格問題は、textbf{stream}モデルの下で広く研究されている: 顧客のストリームが順次到着し、それぞれが独立して同一に分散されたバリュエーションを持つ。
しかし、この定式化は現実の世界を完全に反映するものではない。
多くのシナリオでは、高い評価の顧客は早期に購入を行い、市場を去る傾向があり、バリュエーションの分布において「emph{shift}」となる。
そこで本研究では,非ストラテジックな単価単価の顧客を売り手と繰り返しやりとりするモデルについて考察する。
各顧客は、独立したPoissonプロセスに従って断続的に価格を監視し、観察された価格が彼女の‘emph{private’評価よりも低い場合、市場を永久に去る。
我々は、最適な収益の1/k$を保証した非適応ポリシーを効率良く計算するminimax \emph{optimal}アルゴリズムを提案する。
さらに,新規な \emph{debiasing} アプローチに基づく適応型 \emph{learn-then-earn} ポリシーを示し,$\tilde o(kn^{3/4})$ regret bound を証明する。
さらに、マルティンゲール濃度の不等式を用いて、$\tilde O(k^{3/4} n^{3/4})$へのバウンドをさらに改善する。
関連論文リスト
- Minimax Optimality in Contextual Dynamic Pricing with General Valuation Models [4.156757591117864]
本稿では,問題に対する仮定を最小化しながら,改善された後悔境界を実現する新しいアルゴリズムを提案する。
本手法は, 一般関数空間を考慮し, 動的価格設定によく用いられる線形評価モデルを超えて拡張する。
論文 参考訳(メタデータ) (2024-06-24T23:43:56Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Dynamic Pricing and Learning with Long-term Reference Effects [16.07344044662994]
本研究では,販売者が提示した過去の価格の基準価格が平均値となる,シンプルで斬新な参照価格メカニズムについて検討する。
このメカニズムの下では,モデルパラメータに関係なく,マークダウンポリシがほぼ最適であることを示す。
次に、需要モデルパラメータが不明な、より困難な動的価格と学習の問題について検討する。
論文 参考訳(メタデータ) (2024-02-19T21:36:54Z) - Pricing with Contextual Elasticity and Heteroscedastic Valuation [23.96777734246062]
我々は、顧客がその特徴と価格に基づいて商品を購入するかどうかを決めるオンラインコンテキスト動的価格問題について検討する。
本稿では,機能に基づく価格弾力性の導入により,顧客の期待する需要をモデル化する新たなアプローチを提案する。
我々の結果は、文脈的弾力性とヘテロセダスティックな評価の関係に光を当て、効果的で実用的な価格戦略の洞察を与えました。
論文 参考訳(メタデータ) (2023-12-26T11:07:37Z) - Differentially Private Reward Estimation with Preference Feedback [15.943664678210146]
嗜好に基づくフィードバックから学ぶことは最近、生成モデルと人間の関心を結びつけるための有望なアプローチとして、かなりの注目を集めている。
上記のパイプラインの任意のステップにおける敵攻撃は、人間のラベルのプライベートで機密性の高い情報を明らかにする可能性がある。
我々は、各ラベルのプライバシーを保護しつつ、嗜好に基づくフィードバックからの報酬推定の問題に焦点をあてる。
論文 参考訳(メタデータ) (2023-10-30T16:58:30Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Linear Speedup in Personalized Collaborative Learning [69.45124829480106]
フェデレート学習におけるパーソナライゼーションは、モデルのバイアスをトレーディングすることで、モデルの精度を向上させることができる。
ユーザの目的の最適化として、パーソナライズされた協調学習問題を定式化する。
分散の低減のためにバイアスを最適にトレードオフできる条件について検討する。
論文 参考訳(メタデータ) (2021-11-10T22:12:52Z) - Distribution-free Contextual Dynamic Pricing [5.773269033551628]
コンテキスト動的価格設定は、顧客との逐次的なインタラクションに基づいてパーソナライズされた価格を設定することを目的としている。
本稿では,未知のランダムノイズを伴う文脈的動的価格を評価モデルで検討する。
我々の流通自由価格政策は、コンテキスト関数と市場ノイズの両方を同時に学習する。
論文 参考訳(メタデータ) (2021-09-15T14:52:44Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。