論文の概要: Bayesian Optimization for Dynamic Pricing and Learning
- arxiv url: http://arxiv.org/abs/2510.12447v1
- Date: Tue, 14 Oct 2025 12:28:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 21:19:14.986621
- Title: Bayesian Optimization for Dynamic Pricing and Learning
- Title(参考訳): 動的価格と学習のためのベイズ最適化
- Authors: Anush Anand, Pranav Agrawal, Tejas Bodas,
- Abstract要約: ダイナミックな価格設定は、市場の需要に応じて企業の収益を最大化するために製品の販売価格を調整するプラクティスである。
従来の手法では需要関数の特定のパラメトリック形式を前提としており、強化学習(RL)を用いて最適に近い価格戦略を特定できる。
本稿では,制約付きモデリング仮定を避けるために,動的価格に対する非パラメトリックなアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.306238659426286
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Dynamic pricing is the practice of adjusting the selling price of a product to maximize a firm's revenue by responding to market demand. The literature typically distinguishes between two settings: infinite inventory, where the firm has unlimited stock and time to sell, and finite inventory, where both inventory and selling horizon are limited. In both cases, the central challenge lies in the fact that the demand function -- how sales respond to price -- is unknown and must be learned from data. Traditional approaches often assume a specific parametric form for the demand function, enabling the use of reinforcement learning (RL) to identify near-optimal pricing strategies. However, such assumptions may not hold in real-world scenarios, limiting the applicability of these methods. In this work, we propose a Gaussian Process (GP) based nonparametric approach to dynamic pricing that avoids restrictive modeling assumptions. We treat the demand function as a black-box function of the price and develop pricing algorithms based on Bayesian Optimization (BO) -- a sample-efficient method for optimizing unknown functions. We present BO-based algorithms tailored for both infinite and finite inventory settings and provide regret guarantees for both regimes, thereby quantifying the learning efficiency of our methods. Through extensive experiments, we demonstrate that our BO-based methods outperform several state-of-the-art RL algorithms in terms of revenue, while requiring fewer assumptions and offering greater robustness. This highlights Bayesian Optimization as a powerful and practical tool for dynamic pricing in complex, uncertain environments.
- Abstract(参考訳): ダイナミックな価格設定は、市場の需要に応じて企業の収益を最大化するために製品の販売価格を調整するプラクティスである。
典型的には、無限在庫(株と販売時間無制限)と有限在庫(在庫と販売地平線の両方に制限がある)の2つの設定を区別する。
どちらのケースにおいても、需要関数、すなわち販売が価格にどう反応するかが不明であり、データから学ぶ必要があるという事実が中心的な課題である。
従来の手法では需要関数の特定のパラメトリック形式を前提としており、強化学習(RL)を用いて最適に近い価格戦略を特定できる。
しかし、そのような仮定は現実のシナリオでは成立せず、これらの手法の適用性を制限する。
本研究では,ガウス過程(GP)に基づく動的価格の非パラメトリックなアプローチを提案する。
需要関数を価格のブラックボックス関数として扱い、未知関数を最適化するためのサンプル効率のよいベイズ最適化(BO)に基づく価格アルゴリズムを開発する。
本稿では,無限の在庫設定と有限の在庫設定に適したBOベースのアルゴリズムを提案する。
広範な実験を通じて、BOに基づく手法が、収益の観点からは最先端のRLアルゴリズムよりも優れており、仮定が少なく、ロバスト性も高いことを実証した。
これは、複雑な不確実な環境での動的価格設定のための強力で実用的なツールとしてベイズ最適化を強調している。
関連論文リスト
- Cost-aware Stopping for Bayesian Optimization [46.95172329282389]
本稿では,様々な評価コストに適応し,チューニングが不要なベイズ最適化のためのコスト対応停止則を提案する。
我々は,最先端の取得関数と組み合わせた場合,停止規則によって得られる期待累積評価コストを拘束する理論的な保証を証明した。
論文 参考訳(メタデータ) (2025-07-16T17:54:14Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Parameter-Adaptive Dynamic Pricing [4.156757591117864]
既存の手法では、しばしば要求関数の正確な知識(例えば、H"older smoothness level)とリプシッツ定数(Lipschitz constant)を必要とする。
本稿では,これらの課題に事前のパラメータ知識を使わずに対処するための適応的アプローチを提案する。
我々は、後悔を効率的に管理し、柔軟性と実用性を向上するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-03-02T15:12:28Z) - Transfer Learning for Nonparametric Contextual Dynamic Pricing [17.420508136662257]
動的価格戦略は、市場条件や顧客特性に基づいて価格を調整することで、企業が収益を最大化する上で不可欠である。
この制限を克服するための有望なアプローチの1つは、関連する製品や市場からの情報を活用して、焦点となる価格決定を知らせることである。
本稿では,ソースドメインからの事前収集データを効果的に活用し,対象ドメインの価格決定を効率化する,新しいTLDPアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-31T01:05:04Z) - Deep Generative Demand Learning for Newsvendor and Pricing [7.594251468240168]
我々は、機能ベースのニュースベンダ問題において、データ駆動の在庫と価格決定について検討する。
本稿では,これらの課題に対処するために条件付き深層生成モデル(cDGM)を活用する新しいアプローチを提案する。
我々は、利益予測の整合性や最適解への決定の収束など、我々のアプローチに対する理論的保証を提供する。
論文 参考訳(メタデータ) (2024-11-13T14:17:26Z) - Dual-Agent Deep Reinforcement Learning for Dynamic Pricing and Replenishment [15.273192037219077]
不整合決定周波数下での動的価格設定と補充問題について検討する。
我々は、包括的な市場データに基づいてトレーニングされた決定木に基づく機械学習アプローチを統合する。
このアプローチでは、2つのエージェントが価格と在庫を処理し、さまざまなスケールで更新される。
論文 参考訳(メタデータ) (2024-10-28T15:12:04Z) - A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Online Allocation with Two-sided Resource Constraints [44.5635910908944]
我々は,要求が順次到着する,リソース制約の低いオンラインアロケーション問題を考える。
提案手法では, リクエスト全体を知るオフライン問題に対して, 1-O (fracepsilonalpha-epsilon)$-competitive ratioを求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-28T02:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。