論文の概要: Stochastic Strategic Patient Buyers: Revenue maximization using posted
prices
- arxiv url: http://arxiv.org/abs/2202.06143v1
- Date: Sat, 12 Feb 2022 21:11:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 17:39:34.755171
- Title: Stochastic Strategic Patient Buyers: Revenue maximization using posted
prices
- Title(参考訳): 確率的戦略的患者購入者:ポスト価格による収益の最大化
- Authors: Eitan-Hai Mashiah and Idan Attias and Yishay Mansour
- Abstract要約: 我々は、意思決定を遅らせる能力を持つ買い手と対面する売り手について検討する。
各買い手の型は、価値と忍耐からなり、分布から標本化される。
我々は,販売者の最適な純粋戦略と,販売者の混合戦略に対する買い手の最良の対応戦略の両方を特徴付ける。
- 参考スコア(独自算出の注目度): 40.698164629357066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a seller faced with buyers which have the ability to delay their
decision, which we call patience. Each buyer's type is composed of value and
patience, and it is sampled i.i.d. from a distribution. The seller, using
posted prices, would like to maximize her revenue from selling to the buyer.
Our main results are the following.
$\bullet$ We formalize this setting and characterize the resulting
Stackelberg equilibrium, where the seller first commits to her strategy and
then the buyers best respond.
$\bullet$ We show a separation between the best fixed price, the best pure
strategy, which is a fixed sequence of prices, and the best mixed strategy,
which is a distribution over price sequences.
$\bullet$ We characterize both the optimal pure strategy of the seller and
the buyer's best response strategy to any seller's mixed strategy.
$\bullet$ We show how to compute efficiently the optimal pure strategy and
give an algorithm for the optimal mixed strategy (which is exponential in the
maximum patience).
We then consider a learning setting, where the seller does not have access to
the distribution over buyer's types. Our main results are the following.
$\bullet$ We derive a sample complexity bound for the learning of an
approximate optimal pure strategy, by computing the fat-shattering dimension of
this setting.
$\bullet$ We give a general sample complexity bound for the approximate
optimal mixed strategy.
$\bullet$ We consider an online setting and derive a vanishing regret bound
with respect to both the optimal pure strategy and the optimal mixed strategy.
- Abstract(参考訳): 我々は、決定を遅らせる能力を持つ買い手と直面している売り手について検討し、忍耐と呼ぶ。
各バイヤーのタイプは、価値と忍耐性で構成されており、分布からi.i.d.をサンプリングする。
売り手は上場価格を使い、買い手への売りから得た収入を最大限にしたい。
主な結果は以下のとおりである。
$\bullet$ この設定を形式化し、結果のStackelberg均衡を特徴付けます。
$\bullet$: 最高の固定価格、最高の純粋な戦略、固定価格のシーケンスである最良の混合戦略、そして、価格のシーケンスで配布される最良の混合戦略の分離を示す。
$\bullet$ 売り手の最適な純粋な戦略と売り手の混合戦略に対する買い手の最良の対応戦略の両方を特徴付ける。
$\bullet$ 最適な純粋戦略を効率的に計算し、最適混合戦略(最大忍耐率において指数的である)のアルゴリズムを与える方法を示す。
次に、販売者が購入者のタイプよりも分布にアクセスできないような学習環境を考える。
主な結果は以下のとおりである。
$\bullet$ この設定の脂肪散布次元を計算することによって、近似的な最適純粋戦略の学習に結びついたサンプル複雑性を導出する。
$\bullet$ 近似最適混合戦略に縛られる一般的なサンプル複雑性を与える。
$\bullet$オンライン設定を考えると、最適な純粋な戦略と最適な混合戦略の両方に関して、消滅する後悔を招きます。
関連論文リスト
- Strategically-Robust Learning Algorithms for Bidding in First-Price Auctions [11.988955088595858]
ゲーム理論と機械学習のインターフェースにおいて,プライスオークションを繰り返し競うことの学習は基本的な問題である。
本稿では,プライスオークションにおける純ストラテジー入札のための新しいコンケーブの定式化を提案し,この問題に対する自然なグラディエント・アセンセント・アルゴリズムの解析に利用した。
論文 参考訳(メタデータ) (2024-02-12T01:33:33Z) - An Online Learning Theory of Brokerage [3.8059763597999012]
オンライン学習の観点からトレーダー間のブローカーについて検討する。
既に研究されている他の二国間貿易問題とは異なり、指定された買い手や売り手の役割が存在しない場合に焦点を当てる。
第1の場合、最適率は$sqrtT$に低下し、第2の場合、問題は解けなくなる。
論文 参考訳(メタデータ) (2023-10-18T17:01:32Z) - Contextual Dynamic Pricing with Strategic Buyers [93.97401997137564]
戦略的買い手によるコンテキスト動的価格問題について検討する。
売り手は買い手の真の特徴を観察せず、買い手の戦略行動に応じて操作された特徴を観察する。
本稿では,販売者の累積収益を最大化するために,購入者の戦略的行動をオンライン学習に取り入れた戦略的動的価格政策を提案する。
論文 参考訳(メタデータ) (2023-07-08T23:06:42Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Provably Efficient Offline Multi-agent Reinforcement Learning via
Strategy-wise Bonus [48.34563955829649]
本稿では,共同戦略の信頼区間を構築する戦略的な集中原理を提案する。
2人のプレイヤーによるゼロサムマルコフゲームの場合、戦略的なボーナスの凸性を利用して効率的なアルゴリズムを提案する。
すべてのアルゴリズムは、指定済みの戦略クラスである$Pi$を入力として取り、最良の戦略に近い戦略を$Pi$で出力することができる。
論文 参考訳(メタデータ) (2022-06-01T00:18:15Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z) - On the Impossibility of Convergence of Mixed Strategies with No Regret
Learning [10.515544361834241]
最適無後悔学習戦略の一般クラスから得られる混合戦略の収束特性について検討する。
各ステップに設定された情報を相手の実演の実証平均とする戦略のクラスを考察する。
論文 参考訳(メタデータ) (2020-12-03T18:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。