論文の概要: From Stream to Pool: Dynamic Pricing Beyond i.i.d. Arrivals
- arxiv url: http://arxiv.org/abs/2310.19220v2
- Date: Thu, 6 Jun 2024 04:38:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 00:29:50.120922
- Title: From Stream to Pool: Dynamic Pricing Beyond i.i.d. Arrivals
- Title(参考訳): ストリームからプールへ:i.i.d. Arrivalsを超える動的価格設定
- Authors: Titing Cui, Su Jia, Thomas Lavastida,
- Abstract要約: 我々は、独占販売業者と繰り返しやりとりする顧客に対して、textbfpool$を調査する。
特に,ディスカウント関数が一定であれば,プールモデルによりストリームモデルが復元される。
我々は、非適応的で詳細のない(すなわち、バリュエーションを「知る」)政策を提示し、競争比1/kで達成する。
- 参考スコア(独自算出の注目度): 5.632624116225276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic pricing models often posit that a $\textbf{stream}$ of customer interactions occur sequentially, where customers' valuations are drawn independently. However, this model is not entirely reflective of the real world, as it overlooks a critical aspect, the law of diminishing marginal utility, which states that a customer's marginal utility from each additional unit declines. This causes the valuation distribution to shift towards the lower end, which is not captured by the stream model. This motivates us to study a pool-based model, where a $\textbf{pool}$ of customers repeatedly interacts with a monopolist seller, each of whose valuation diminishes in the number of purchases made according to a discount function. In particular, when the discount function is constant, our pool model recovers the stream model. We focus on the most fundamental special case, where a customer's valuation becomes zero once a purchase is made. Given $k$ prices, we present a non-adaptive, detail-free (i.e., does not "know" the valuations) policy that achieves a $1/k$ competitive ratio, which is optimal among non-adaptive policies. Furthermore, based on a novel debiasing technique, we propose an adaptive learn-then-earn policy with a $\tilde O(k^{2/3} n^{2/3})$ regret.
- Abstract(参考訳): 動的価格モデルはしばしば、顧客のインタラクションの$\textbf{stream}$が順次発生し、顧客のバリュエーションが独立して引き出されることを仮定する。
しかし、このモデルは、限界効用を減らし、各追加単位からの顧客の限界効用が減少するという、重要な側面を見落としているために、現実の世界を完全に反映しているわけではない。
これにより、バリュエーションの分布は、ストリームモデルによって捉えられていないローエンドへとシフトする。
これはプールベースのモデルを研究する動機となり、$\textbf{pool}$の顧客は、ディスカウント機能によって購入される回数が減少するモノポリスの売り手と繰り返しやりとりする。
特に、割引関数が一定であれば、プールモデルによってストリームモデルが復元される。
購入が完了すると、顧客の評価がゼロになる、最も基本的な特殊なケースに注目します。
k$の価格が与えられた場合、非適応的かつ詳細のない(すなわち、非適応的政策の中で最適である1/k$の競争比率を達成するような政策を提示する。
さらに, 新たなデバイアス化手法を基礎として, $\tilde O(k^{2/3} n^{2/3})$ regret を用いた適応型学習理論を提案する。
関連論文リスト
- Minimax Optimality in Contextual Dynamic Pricing with General Valuation Models [4.156757591117864]
本稿では,問題に対する仮定を最小化しながら,改善された後悔境界を実現する新しいアルゴリズムを提案する。
本手法は, 一般関数空間を考慮し, 動的価格設定によく用いられる線形評価モデルを超えて拡張する。
論文 参考訳(メタデータ) (2024-06-24T23:43:56Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Dynamic Pricing and Learning with Long-term Reference Effects [16.07344044662994]
本研究では,販売者が提示した過去の価格の基準価格が平均値となる,シンプルで斬新な参照価格メカニズムについて検討する。
このメカニズムの下では,モデルパラメータに関係なく,マークダウンポリシがほぼ最適であることを示す。
次に、需要モデルパラメータが不明な、より困難な動的価格と学習の問題について検討する。
論文 参考訳(メタデータ) (2024-02-19T21:36:54Z) - Pricing with Contextual Elasticity and Heteroscedastic Valuation [23.96777734246062]
我々は、顧客がその特徴と価格に基づいて商品を購入するかどうかを決めるオンラインコンテキスト動的価格問題について検討する。
本稿では,機能に基づく価格弾力性の導入により,顧客の期待する需要をモデル化する新たなアプローチを提案する。
我々の結果は、文脈的弾力性とヘテロセダスティックな評価の関係に光を当て、効果的で実用的な価格戦略の洞察を与えました。
論文 参考訳(メタデータ) (2023-12-26T11:07:37Z) - Differentially Private Reward Estimation with Preference Feedback [15.943664678210146]
嗜好に基づくフィードバックから学ぶことは最近、生成モデルと人間の関心を結びつけるための有望なアプローチとして、かなりの注目を集めている。
上記のパイプラインの任意のステップにおける敵攻撃は、人間のラベルのプライベートで機密性の高い情報を明らかにする可能性がある。
我々は、各ラベルのプライバシーを保護しつつ、嗜好に基づくフィードバックからの報酬推定の問題に焦点をあてる。
論文 参考訳(メタデータ) (2023-10-30T16:58:30Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Linear Speedup in Personalized Collaborative Learning [69.45124829480106]
フェデレート学習におけるパーソナライゼーションは、モデルのバイアスをトレーディングすることで、モデルの精度を向上させることができる。
ユーザの目的の最適化として、パーソナライズされた協調学習問題を定式化する。
分散の低減のためにバイアスを最適にトレードオフできる条件について検討する。
論文 参考訳(メタデータ) (2021-11-10T22:12:52Z) - Distribution-free Contextual Dynamic Pricing [5.773269033551628]
コンテキスト動的価格設定は、顧客との逐次的なインタラクションに基づいてパーソナライズされた価格を設定することを目的としている。
本稿では,未知のランダムノイズを伴う文脈的動的価格を評価モデルで検討する。
我々の流通自由価格政策は、コンテキスト関数と市場ノイズの両方を同時に学習する。
論文 参考訳(メタデータ) (2021-09-15T14:52:44Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。