論文の概要: Optimal Contextual Pricing under Agnostic Non-Lipschitz Demand
- arxiv url: http://arxiv.org/abs/2605.05609v1
- Date: Thu, 07 May 2026 02:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.494679
- Title: Optimal Contextual Pricing under Agnostic Non-Lipschitz Demand
- Title(参考訳): 非リプシッツ需要下における最適条件価格設定
- Authors: Jianyu Xu, Yu-Xiang Wang,
- Abstract要約: 任意のジャンプと原子を持つ非Lipschitzの要求曲線が誘導されるような線形評価と有界支持雑音によるコンテキスト動的価格について検討する。
本稿では,ランダム化パラメータ推定,保守的残留グリッド探索,信頼に基づくワンステップリダイレクトを組み合わせた時間アルゴリズムであるReserve-Markdown Redirect-UCB Pricingを提案する。
- 参考スコア(独自算出の注目度): 24.75795278671755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study contextual dynamic pricing with linear valuations and bounded-support agnostic noise, whose induced demand curve may be non-Lipschitz with arbitrary jumps and atoms. Such discontinuities break the cross-context interpolation arguments used by smooth-demand pricing algorithms, while the best previous method achieved only $\tilde O(T^{3/4})$ regret. We propose Conservative-Markdown Redirect-UCB Pricing, a polynomial-time algorithm that combines randomized parameter estimation, conservative residual-grid probing, and confidence-based one-step redirection. Our algorithm achieves $\tilde O(T^{2/3})$ optimal regret, matching the known lower bounds of Kleinberg and Leighton (2003) up to logarithmic factors and improving over the previous upper bound of Xu and Wang (2022). Under stochastic well-conditioned contexts, this closes the long-existing open regret gap in linear-valuation contextual pricing under agnostic non-Lipschitz noise distribution.
- Abstract(参考訳): 任意のジャンプと原子を持つ非Lipschitzの要求曲線が誘導されるような線形評価と有界支持非依存雑音による文脈的動的価格付けについて検討する。
このような不連続性は、スムーズな価格設定アルゴリズムで使われるクロスコンテクスト補間引数を破り、最上級の手法は、わずか$\tilde O(T^{3/4})の後悔しか達成しなかった。
確率化パラメータ推定, 残留グリッド探索, 信頼度に基づくワンステップリダイレクトを組み合わせた多項式時間アルゴリズムであるReserve-Markdown Redirect-UCB Pricingを提案する。
このアルゴリズムは,Kleinberg と Leighton (2003) の既知下界を対数的因子に一致させ,Xu と Wang (2022) の以前の上界よりも改善する。
確率的条件付き文脈下では、これは非Lipschitz雑音分布の下での線形評価の文脈的価格設定において、長く残っている後悔のギャップを埋める。
関連論文リスト
- Near-Optimal Primal-Dual Algorithm for Learning Linear Mixture CMDPs with Adversarial Rewards [0.8984888893275712]
有限-水平線形混合制約マルコフ決定過程における安全強化学習について検討する。
本稿では, 後悔と制約違反境界を実現するプリミティブ・デュアルポリシー最適化アルゴリズムを提案する。
これは、線形混合CMDPと逆効果を持つ最初の証明可能な効率のよいアルゴリズムである。
論文 参考訳(メタデータ) (2026-03-29T21:51:33Z) - Dynamic Pricing in the Linear Valuation Model using Shape Constraints [21.319339643047826]
線形評価モデルにおける検閲データに対する動的価格設定に対する形状制約付きアプローチを提案する。
本手法は, 文献における既往の方法と比較して, 経験的後悔の度合いを低くする。
論文 参考訳(メタデータ) (2025-02-09T04:58:33Z) - Minimax Optimality in Contextual Dynamic Pricing with General Valuation Models [8.981637739384674]
意思決定者は、観測可能なコンテキストに基づいてパーソナライズされた価格を投稿する。
それぞれのバリュエーションはコンテキストの未知の潜在関数としてモデル化され、独立性と同一に分散された市場ノイズによって破損する。
論文 参考訳(メタデータ) (2024-06-24T23:43:56Z) - Contextual Dynamic Pricing: Algorithms, Optimality, and Local Differential Privacy Constraints [10.057344315478709]
我々は、企業が商品をT$シーケンシャルに販売するコンテキスト動的価格問題について研究する。
まず、最適な後悔は対数的因子の次数$sqrtdT$であることを示す。
我々の研究は、複雑なプライバシー制約の下で動的価格に拡張され、公開データを活用することにより、プライバシーとユーティリティのトレードオフが改善されます。
論文 参考訳(メタデータ) (2024-06-04T15:44:10Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Fast Rates for the Regret of Offline Reinforcement Learning [69.23654172273085]
無限水平割引決定プロセス(MDP)における固定行動ポリシーによって生成されたオフラインデータからの強化学習の後悔について検討する。
最適品質関数 $Q*$ に対する任意の推定が与えられたとき、定義するポリシーの後悔は、$Q*$-estimate の点収束率の指数によって与えられる速度で収束することを示す。
論文 参考訳(メタデータ) (2021-01-31T16:17:56Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。