論文の概要: From Stream to Pool: Dynamic Pricing Beyond i.i.d. Arrivals
- arxiv url: http://arxiv.org/abs/2310.19220v1
- Date: Mon, 30 Oct 2023 01:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 13:31:46.500175
- Title: From Stream to Pool: Dynamic Pricing Beyond i.i.d. Arrivals
- Title(参考訳): ストリームからプールへ:i.i.d. Arrivalsを超える動的価格設定
- Authors: Titing Cui, Su Jia, Thomas Lavastida
- Abstract要約: 適応的でないポリシーを効率的に計算するミニマックス近位アルゴリズムを提案する。
また,新しいエンフェデビアス法に基づく適応型エンフェレーンアーン政策を提案する。
- 参考スコア(独自算出の注目度): 6.3305050339413675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dynamic pricing problem has been extensively studied under the
\textbf{stream} model: A stream of customers arrives sequentially, each with an
independently and identically distributed valuation. However, this formulation
is not entirely reflective of the real world. In many scenarios, high-valuation
customers tend to make purchases earlier and leave the market, leading to a
\emph{shift} in the valuation distribution. Thus motivated, we consider a model
where a \textbf{pool} of $n$ non-strategic unit-demand customers interact
repeatedly with the seller. Each customer monitors the price intermittently
according to an independent Poisson process and makes a purchase if the
observed price is lower than her \emph{private} valuation, whereupon she leaves
the market permanently. We present a minimax \emph{optimal} algorithm that
efficiently computes a non-adaptive policy which guarantees a $1/k$ fraction of
the optimal revenue, given any set of $k$ prices. Moreover, we present an
adaptive \emph{learn-then-earn} policy based on a novel \emph{debiasing}
approach, and prove an $\tilde O(kn^{3/4})$ regret bound. We further improve
the bound to $\tilde O(k^{3/4} n^{3/4})$ using martingale concentration
inequalities.
- Abstract(参考訳): 動的価格問題は、textbf{stream}モデルの下で広く研究されている: 顧客のストリームが順次到着し、それぞれが独立して同一に分散されたバリュエーションを持つ。
しかし、この定式化は現実の世界を完全に反映するものではない。
多くのシナリオでは、高い評価の顧客は早期に購入を行い、市場を去る傾向があり、バリュエーションの分布において「emph{shift}」となる。
そこで本研究では,非ストラテジックな単価単価の顧客を売り手と繰り返しやりとりするモデルについて考察する。
各顧客は、独立したPoissonプロセスに従って断続的に価格を監視し、観察された価格が彼女の‘emph{private’評価よりも低い場合、市場を永久に去る。
我々は、最適な収益の1/k$を保証した非適応ポリシーを効率良く計算するminimax \emph{optimal}アルゴリズムを提案する。
さらに,新規な \emph{debiasing} アプローチに基づく適応型 \emph{learn-then-earn} ポリシーを示し,$\tilde o(kn^{3/4})$ regret bound を証明する。
さらに、マルティンゲール濃度の不等式を用いて、$\tilde O(k^{3/4} n^{3/4})$へのバウンドをさらに改善する。
関連論文リスト
- Tackling Byzantine Clients in Federated Learning [12.199314713190354]
逆境(エム・ビザンティン)のクライアントは、連邦学習(FL)を任意に操作する傾向がある。
学習精度の向上は, サブサンプルクライアント数に対して著しく低下することを示す。
また、注意深いステップ選択の下では、ビザンティンのクライアントによる学習エラーは局所的なステップの数とともに減少する。
論文 参考訳(メタデータ) (2024-02-20T07:40:11Z) - Pricing with Contextual Elasticity and Heteroscedastic Valuation [23.96777734246062]
我々は、顧客がその特徴と価格に基づいて商品を購入するかどうかを決めるオンラインコンテキスト動的価格問題について検討する。
本稿では,機能に基づく価格弾力性の導入により,顧客の期待する需要をモデル化する新たなアプローチを提案する。
我々の結果は、文脈的弾力性とヘテロセダスティックな評価の関係に光を当て、効果的で実用的な価格戦略の洞察を与えました。
論文 参考訳(メタデータ) (2023-12-26T11:07:37Z) - Dynamic Pricing and Learning with Bayesian Persuasion [18.59029578133633]
我々は,商品の価格設定に加えて,販売者が「広告計画」にコミットする,新たな動的価格設定と学習環境を考える。
我々は、バイエルンの一般的な説得フレームワークを使用して、これらのシグナルが購入者の評価と購入反応に与える影響をモデル化する。
我々は、過去の購入応答を利用して最適な価格と広告戦略を適応的に学習できるオンラインアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-27T17:52:06Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - A Reinforcement Learning Approach in Multi-Phase Second-Price Auction
Design [158.0041488194202]
多相第2価格オークションにおけるリザーブ価格の最適化について検討する。
売り手の視点からは、潜在的に非現実的な入札者の存在下で、環境を効率的に探索する必要がある。
第三に、売り手のステップごとの収益は未知であり、非線形であり、環境から直接観察することさえできない。
論文 参考訳(メタデータ) (2022-10-19T03:49:05Z) - Linear Speedup in Personalized Collaborative Learning [69.45124829480106]
フェデレート学習におけるパーソナライゼーションは、モデルのバイアスをトレーディングすることで、モデルの精度を向上させることができる。
ユーザの目的の最適化として、パーソナライズされた協調学習問題を定式化する。
分散の低減のためにバイアスを最適にトレードオフできる条件について検討する。
論文 参考訳(メタデータ) (2021-11-10T22:12:52Z) - Dynamic pricing and assortment under a contextual MNL demand [2.1320960069210475]
我々は、T期間における未知の需要の下で、動的多製品価格とアソシエーション問題を考察する。
オンラインニュートンステップアルゴリズム(ONS)の変種に基づくランダム化動的価格ポリシーを提案する。
また,MNLの文脈帯域幅問題に対する新しい楽観的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T14:37:10Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Logarithmic Regret in Feature-based Dynamic Pricing [0.0]
機能ベースの動的価格設定は、差別化された製品の価格設定の人気が高まっているモデルです。
我々は、インフラクティゲンと敵対的な特徴設定のための2つのアルゴリズムを提供し、両方の最適$O(dlogT)$後悔境界を証明します。
さらに、より一般的な設定で$(sqrtt)$情報理論下限を証明し、"需要曲線の知識"が機能ベースの動的価格の指数関数的な改善につながることを実証します。
論文 参考訳(メタデータ) (2021-02-20T00:45:33Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Sharp Statistical Guarantees for Adversarially Robust Gaussian
Classification [54.22421582955454]
逆向きに頑健な分類の過剰リスクに対する最適ミニマックス保証の最初の結果を提供する。
結果はAdvSNR(Adversarial Signal-to-Noise Ratio)の項で述べられており、これは標準的な線形分類と逆数設定との類似の考え方を一般化している。
論文 参考訳(メタデータ) (2020-06-29T21:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。