論文の概要: Minimax Optimality in Contextual Dynamic Pricing with General Valuation Models
- arxiv url: http://arxiv.org/abs/2406.17184v2
- Date: Thu, 14 Aug 2025 09:34:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:47.963365
- Title: Minimax Optimality in Contextual Dynamic Pricing with General Valuation Models
- Title(参考訳): 一般評価モデルを用いた文脈動的価格の最小値最適化
- Authors: Xueping Gong, Wei You, Jiheng Zhang,
- Abstract要約: 意思決定者は、観測可能なコンテキストに基づいてパーソナライズされた価格を投稿する。
それぞれのバリュエーションはコンテキストの未知の潜在関数としてモデル化され、独立性と同一に分散された市場ノイズによって破損する。
- 参考スコア(独自算出の注目度): 8.981637739384674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study contextual dynamic pricing, where a decision maker posts personalized prices based on observable contexts and receives binary purchase feedback indicating whether the customer's valuation exceeds the price. Each valuation is modeled as an unknown latent function of the context, corrupted by independent and identically distributed market noise from an unknown distribution. Relying only on Lipschitz continuity of the noise distribution and bounded valuations, we propose a minimax-optimal algorithm. To accommodate the unknown distribution, our method discretizes the relevant noise range to form a finite set of candidate prices, then applies layered data partitioning to obtain confidence bounds substantially tighter than those derived via the elliptical-potential lemma. A key advantage is that estimation bias in the valuation function cancels when comparing upper confidence bounds, eliminating the need to know the Lipschitz constant. The framework extends beyond linear models to general function classes through offline regression oracles. Our regret analysis depends solely on the oracle's estimation error, typically governed by the statistical complexity of the class. These techniques yield a regret upper bound matching the minimax lower bound up to logarithmic factors. Furthermore, we refine these guarantees under additional structures -- e.g., linear valuation models, second-order smoothness, sparsity, and known noise distribution or observable valuations -- and compare our bounds and assumptions with prior dynamic-pricing methods. Finally, numerical experiments corroborate the theory and show clear improvements over benchmark methods.
- Abstract(参考訳): コンテクスト動的価格について検討し、意思決定者が可観測コンテキストに基づいてパーソナライズされた価格を投稿し、顧客のバリュエーションが価格を超えるかどうかを示すバイナリ購入フィードバックを受け取る。
各評価は未知の潜在関数としてモデル化され、未知の分布から独立かつ同一に分布する市場ノイズによって劣化する。
雑音分布と有界値のリプシッツ連続性のみを考慮し,ミニマックス最適化アルゴリズムを提案する。
未知の分布に対応するため,本手法では,関連する雑音範囲を離散化して有限値の候補値を形成するとともに,階層データ分割を適用し,楕円ポテンシャル補間法により導出されたものよりもかなり密な信頼境界を求める。
重要な利点は、評価関数における推定バイアスが上限値を比較する際にキャンセルされ、リプシッツ定数を知る必要がなくなることである。
このフレームワークは、線形モデルを超えて、オフラインの回帰オラクルを通じて一般的な関数クラスに拡張されている。
我々の後悔の分析は、典型的にはクラスの統計的複雑さによって支配されるオラクルの推定誤差にのみ依存する。
これらの手法は、対数的因子までの最小値の低い値に一致する後悔の上限を与える。
さらに, これらの保証を, 線形評価モデル, 2次スムーズ性, 疎度, 既知の雑音分布や観測可能な評価といった追加構造の下で洗練し, 従来の動的価格法と比較する。
最後に、数値実験は理論を裏付け、ベンチマーク法よりも明確な改善を示す。
関連論文リスト
- Contextual Dynamic Pricing: Algorithms, Optimality, and Local Differential Privacy Constraints [10.057344315478709]
企業が商品をT$で販売する状況的動的価格問題について検討する。
まず、最適後悔上限は、対数係数まで、次数$sqrtdT$であることを示す。
理論的結果の重要な洞察は、動的価格と文脈的マルチアームバンディット問題との本質的な関係である。
論文 参考訳(メタデータ) (2024-06-04T15:44:10Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,このドメイン内のモデルについて考察する。-文脈的デュエルバンディット(contextual dueling bandits)と,正の選好ラベルを相手によって反転させることができる対向フィードバック(reversarial feedback)について考察する。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(RCDB)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Rate-Optimal Policy Optimization for Linear Markov Decision Processes [65.5958446762678]
最安値の$widetilde O (sqrt K)$ regret, $K$はエピソード数を表す。
我々の研究は、バンディットフィードバックのある設定において最適な収束率(w.r.t.$K$)を確立する最初のものである。
現在、最適なレート保証を持つアルゴリズムは知られていない。
論文 参考訳(メタデータ) (2023-08-28T15:16:09Z) - Settling the Sample Complexity of Online Reinforcement Learning [92.02082223856479]
バーンインコストを発生させることなく、最小限の最適後悔を実現する方法を示す。
最適値/コストや一定の分散といった問題依存量の影響を明らかにするために、我々の理論を拡張します。
論文 参考訳(メタデータ) (2023-07-25T15:42:11Z) - Strictly Low Rank Constraint Optimization -- An Asymptotically
$\mathcal{O}(\frac{1}{t^2})$ Method [5.770309971945476]
最適解における空間性を促進するために,テキスト規則化を用いた非テキスト・非滑らかな問題のクラスを提案する。
我々のアルゴリズムは、滑らかな凸問題に対する一階法に対するネステロフの最適収束と全く同じ$Ofrac(t2)$の特異収束を達成することができることを示す。
論文 参考訳(メタデータ) (2023-07-04T16:55:41Z) - The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-03T02:55:55Z) - Towards Agnostic Feature-based Dynamic Pricing: Linear Policies vs
Linear Valuation with Unknown Noise [16.871660060209674]
我々は,$tildeO(Tfrac34)$の後悔を実現するアルゴリズムを示し,$Omega(Tfrac35)$から$tildeOmega(Tfrac23)$への最もよく知られた下限を改善する。
その結果, 弱い仮定の下では, 特徴量に基づく動的価格設定が可能であることが示唆された。
論文 参考訳(メタデータ) (2022-01-27T06:40:03Z) - On Dynamic Pricing with Covariates [6.6543199581017625]
UCBとThompsonのサンプリングに基づく価格設定アルゴリズムは、$O(dsqrtTlog T)$ regret upper boundを実現できることを示す。
私たちの後悔に対する上限は、対数的要因までの下位境界と一致します。
論文 参考訳(メタデータ) (2021-12-25T16:30:13Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z) - Dynamic Pricing and Learning under the Bass Model [16.823029377470366]
マーケットサイズが$m$である場合、オーダー$tilde O(m2/3)$の確率後悔保証を満足するアルゴリズムを開発する。
多くの後悔の分析結果とは異なり、現在の問題では市場規模$m$が複雑さの基本的な要因である。
論文 参考訳(メタデータ) (2021-03-09T03:27:33Z) - Dynamic Regret of Convex and Smooth Functions [93.71361250701075]
非定常環境におけるオンライン凸最適化について検討する。
パフォーマンス指標として動的後悔を選択します。
本研究では, 滑らかさを活かして, 動的後悔をさらに高めることが可能であることを示す。
論文 参考訳(メタデータ) (2020-07-07T14:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。