論文の概要: Leveraging Reviews: Learning to Price with Buyer and Seller Uncertainty
- arxiv url: http://arxiv.org/abs/2302.09700v1
- Date: Mon, 20 Feb 2023 00:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:06:38.268137
- Title: Leveraging Reviews: Learning to Price with Buyer and Seller Uncertainty
- Title(参考訳): レバレッジレビュー:バイヤーとセラーの不確実性による価格の学習
- Authors: Wenshuo Guo, Nika Haghtalab, Kirthevasan Kandasamy, Ellen Vitercik
- Abstract要約: オンラインマーケットプレースでは、顧客は単一の製品に対する数百のレビューにアクセスできます。
買い手はしばしば、自分のタイプを共有する他の顧客からのレビューを使って価値を見積もる。
関連するレビューの少ない顧客は、低価格で購入することをためらう可能性があるため、売り手にとって、高い価格を設定することと、購入者が自信を持って自分の価値を見積もることができるような十分なレビューが存在することとの間に緊張関係がある。
- 参考スコア(独自算出の注目度): 22.73182486590895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In online marketplaces, customers have access to hundreds of reviews for a
single product. Buyers often use reviews from other customers that share their
type -- such as height for clothing, skin type for skincare products, and
location for outdoor furniture -- to estimate their values, which they may not
know a priori. Customers with few relevant reviews may hesitate to make a
purchase except at a low price, so for the seller, there is a tension between
setting high prices and ensuring that there are enough reviews so that buyers
can confidently estimate their values. Simultaneously, sellers may use reviews
to gauge the demand for items they wish to sell.
In this work, we study this pricing problem in an online setting where the
seller interacts with a set of buyers of finitely-many types, one-by-one, over
a series of $T$ rounds. At each round, the seller first sets a price. Then a
buyer arrives and examines the reviews of the previous buyers with the same
type, which reveal those buyers' ex-post values. Based on the reviews, the
buyer decides to purchase if they have good reason to believe that their
ex-ante utility is positive. Crucially, the seller does not know the buyer's
type when setting the price, nor even the distribution over types. We provide a
no-regret algorithm that the seller can use to obtain high revenue. When there
are $d$ types, after $T$ rounds, our algorithm achieves a problem-independent
$\tilde O(T^{2/3}d^{1/3})$ regret bound. However, when the smallest probability
$q_{\text{min}}$ that any given type appears is large, specifically when
$q_{\text{min}} \in \Omega(d^{-2/3}T^{-1/3})$, then the same algorithm achieves
a $\tilde O(T^{1/2}q_{\text{min}}^{-1/2})$ regret bound. We complement these
upper bounds with matching lower bounds in both regimes, showing that our
algorithm is minimax optimal up to lower order terms.
- Abstract(参考訳): オンラインマーケットプレースでは、顧客は単一の製品に対する数百のレビューにアクセスできます。
購入者は、服の身長、スキンケア製品用のスキンタイプ、屋外家具の場所など、自分のタイプを共有する他の顧客からのレビューを使って、優先順位を知らないかもしれない価値を見積もることが多い。
関連するレビューがほとんどない顧客は、低価格で購入することをためらうため、売り手にとって、高い価格設定と、買い手が自信を持って自分の価値を見積もることができる十分なレビューがあることの確証との間には緊張がある。
同時に、売り手は、売りたい商品の需要を評価するためにレビューを利用することができる。
本研究では,この価格設定問題を,販売者が一連のT$ラウンドで,有限個のタイプの購入者と1対1で対話するオンライン環境で検討する。
各ラウンドにおいて、売り手はまず価格を設定する。
次に買い手が到着し、同じタイプの前の買い手のレビューを調べ、その買い手の元ポストの価値を明らかにする。
レビューに基づいて、買い手は、前者のユーティリティが肯定的であると信じる正当な理由があるかどうかを判断する。
重要なことに、売り手は、価格を設定するときの買い手のタイプや、タイプに対する分配さえ知らない。
我々は、売り手が高い収入を得るために使用できる非レグレットアルゴリズムを提供する。
d$型があると、$t$ ラウンドの後、アルゴリズムは問題に依存しない$\tilde o(t^{2/3}d^{1/3})$ regretboundを達成する。
しかしながら、任意の型が現れる最小の確率 $q_{\text{min}}$ が大きければ、特に$q_{\text{min}} \in \omega(d^{-2/3}t^{-1/3})$ の場合、同じアルゴリズムは$\tilde o(t^{1/2}q_{\text{min}}^{-1/2})$ regret bound が得られる。
これらの上限を両レジームで一致する下限で補うことにより、我々のアルゴリズムが最少で最下位の項まで最適であることを示す。
関連論文リスト
- Improved Algorithms for Contextual Dynamic Pricing [24.530341596901476]
コンテキスト動的価格設定では、売り手はコンテキスト情報に基づいて商品を順次価格設定する。
提案アルゴリズムは,$tildemathcalO(T2/3)$の最適再帰限界を達成し,既存の結果を改善する。
このモデルに対して,我々のアルゴリズムは,文脈空間の次元を$d$とする,後悔の$tildemathcalO(Td+2beta/d+3beta)$を得る。
論文 参考訳(メタデータ) (2024-06-17T08:26:51Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Bandit Sequential Posted Pricing via Half-Concavity [12.373936155910934]
バンディット学習モデルにおいて,逐次ポスト価格について検討した。
各ラウンドで、売り手は$n$の買い手に対して$n$の価格を投稿する。
我々の主な成果は、単一項目のシーケンシャルなポスト価格に対して、ほぼ最適の後悔境界を得る。
論文 参考訳(メタデータ) (2023-12-20T06:34:15Z) - Dynamic Pricing and Learning with Bayesian Persuasion [18.59029578133633]
我々は,商品の価格設定に加えて,販売者が「広告計画」にコミットする,新たな動的価格設定と学習環境を考える。
我々は、バイエルンの一般的な説得フレームワークを使用して、これらのシグナルが購入者の評価と購入反応に与える影響をモデル化する。
我々は、過去の購入応答を利用して最適な価格と広告戦略を適応的に学習できるオンラインアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-27T17:52:06Z) - Borda Regret Minimization for Generalized Linear Dueling Bandits [65.09919504862496]
本稿では,ボルダスコアが最も高い項目を識別することを目的とした,デュエルバンディットに対するボルダ後悔最小化問題について検討する。
本稿では,多くの既存モデルをカバーする一般化線形デュエルバンドモデルのリッチクラスを提案する。
我々のアルゴリズムは$tildeO(d2/3 T2/3)$ regretを達成し、これも最適である。
論文 参考訳(メタデータ) (2023-03-15T17:59:27Z) - Repeated Bilateral Trade Against a Smoothed Adversary [5.939280057673226]
我々は、アダプティブ$sigma$-smooth敵が売り手と買い手のバリュエーションを生成する二国間取引について検討する。
本研究では、異なるフィードバックモデルの下での固定価格機構に対する後悔状態の完全な特徴付けを行う。
論文 参考訳(メタデータ) (2023-02-21T16:30:10Z) - A Reinforcement Learning Approach in Multi-Phase Second-Price Auction
Design [158.0041488194202]
多相第2価格オークションにおけるリザーブ価格の最適化について検討する。
売り手の視点からは、潜在的に非現実的な入札者の存在下で、環境を効率的に探索する必要がある。
第三に、売り手のステップごとの収益は未知であり、非線形であり、環境から直接観察することさえできない。
論文 参考訳(メタデータ) (2022-10-19T03:49:05Z) - Double Auctions with Two-sided Bandit Feedback [11.334374665364214]
ダブルオークションは、複数の買い手と売り手の間の商品の分散移動を可能にする。
信頼関係に基づく入札を行い、参加者の間には「平均価格」が効率的な価格発見をもたらすことを示す。
本論文は,両面の市場において,両面から学習が必要な不確実な嗜好を持つ分散学習アルゴリズムを初めて提供するものである。
論文 参考訳(メタデータ) (2022-08-13T01:03:34Z) - No-Regret Learning in Partially-Informed Auctions [85.67897346422122]
本研究では,一部の情報を用いたオークションの機械学習定式化について検討する。
各ラウンドでは、未知の分布から新しいアイテムが引き出され、プラットフォームは、そのアイテムに関する不完全な「偽」情報とともに価格を発行する。
アイテムの分布が買い手に知られ、マスクがSimHash関数のマッピングである場合、$mathbbRd$ to $0,1ell$、我々のアルゴリズムは、$tilde MathcalO((Tdell)frac12)$を後悔している。
論文 参考訳(メタデータ) (2022-02-22T01:15:51Z) - Adversarial Dueling Bandits [85.14061196945599]
本稿では,反逆デュエルバンドにおける後悔の問題を紹介する。
学習者は、繰り返し一対のアイテムを選択し、このペアに対する相対的な二項利得フィードバックのみを観察しなければならない。
我々の主な成果は、EmphBorda-winnerの1組の$K$アイテムと比較して、T$ラウンド後悔するアルゴリズムです。
論文 参考訳(メタデータ) (2020-10-27T19:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。