論文の概要: Minimax Optimality in Contextual Dynamic Pricing with General Valuation Models
- arxiv url: http://arxiv.org/abs/2406.17184v1
- Date: Mon, 24 Jun 2024 23:43:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-26 16:11:02.018324
- Title: Minimax Optimality in Contextual Dynamic Pricing with General Valuation Models
- Title(参考訳): 一般評価モデルを用いた文脈動的価格の最小値最適化
- Authors: Xueping Gong, Jiheng Zhang,
- Abstract要約: 本稿では,問題に対する仮定を最小化しながら,改善された後悔境界を実現する新しいアルゴリズムを提案する。
本手法は, 一般関数空間を考慮し, 動的価格設定によく用いられる線形評価モデルを超えて拡張する。
- 参考スコア(独自算出の注目度): 4.156757591117864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic pricing, the practice of adjusting prices based on contextual factors, has gained significant attention due to its impact on revenue maximization. In this paper, we address the contextual dynamic pricing problem, which involves pricing decisions based on observable product features and customer characteristics. We propose a novel algorithm that achieves improved regret bounds while minimizing assumptions about the problem. Our algorithm discretizes the unknown noise distribution and combines the upper confidence bounds with a layered data partitioning technique to effectively regulate regret in each episode. These techniques effectively control the regret associated with pricing decisions, leading to the minimax optimality. Specifically, our algorithm achieves a regret upper bound of $\tilde{\mathcal{O}}(\rho_{\mathcal{V}}^{\frac{1}{3}}(\delta) T^{\frac{2}{3}})$, where $\rho_{\mathcal{V}}(\delta)$ represents the estimation error of the valuation function. Importantly, this bound matches the lower bound up to logarithmic terms, demonstrating the minimax optimality of our approach. Furthermore, our method extends beyond linear valuation models commonly used in dynamic pricing by considering general function spaces. We simplify the estimation process by reducing it to general offline regression oracles, making implementation more straightforward.
- Abstract(参考訳): 動的価格設定は、文脈的要因に基づく価格調整のプラクティスであり、収益の最大化に影響を及ぼすため、大きな注目を集めている。
本稿では,観測可能な製品特徴と顧客特性に基づいて価格決定を行うコンテキスト動的価格問題に対処する。
本稿では,問題に対する仮定を最小化しながら,改善された後悔境界を実現する新しいアルゴリズムを提案する。
提案アルゴリズムは,未知の雑音分布を識別し,各エピソードの後悔を効果的に抑えるために,上位の信頼度境界と階層化されたデータ分割手法を組み合わせる。
これらの技術は価格決定に伴う後悔を効果的に制御し、最小限の最適性をもたらす。
具体的には、我々のアルゴリズムは、$\tilde{\mathcal{O}}(\rho_{\mathcal{V}}^{\frac{1}{3}}(\delta) T^{\frac{2}{3}})$, ここで、$\rho_{\mathcal{V}}(\delta)$は評価関数の推定誤差を表す。
重要なことに、この境界は対数項までの下位境界と一致し、我々のアプローチの極小最適性を示す。
さらに,本手法は一般関数空間を考慮し,動的価格設定によく用いられる線形評価モデルを超えて拡張する。
我々は、一般的なオフライン回帰オラクルに還元することで、推定プロセスを単純化し、実装をより簡単にする。
関連論文リスト
- Active Bipartite Ranking with Smooth Posterior Distributions [1.9838140219494644]
双部格付けは、多くのアプリケーションにかかわる統計的学習問題であり、受動的文脈において広く研究されている。
本研究では,推定ランキングルールのROC曲線と$sup$ノルムの最適値との距離を最小化することを目的とした,スムーズランクと呼ばれる新しいアルゴリズムを提案する。
本研究では,スムーズランクのサンプリング時間に依存する問題と,任意のPAC$(,)$アルゴリズムのサンプリング時間に依存する問題を確立する。
論文 参考訳(メタデータ) (2026-02-27T18:32:08Z) - Log-Sum-Exponential Estimator for Off-Policy Evaluation and Learning [50.93804891554481]
従来の逆確率スコア推定よりも優れた対数推定演算子(log-sum-exponential (LSE)演算子)に基づく新しい推定器を提案する。
我々のLSE推定器は, 重み付き条件下での分散低減とロバスト性を示す。
政治以外の学習シナリオでは、LSE推定器と最適ポリシーの間のパフォーマンスギャップである後悔の限界を確立します。
論文 参考訳(メタデータ) (2025-06-07T17:37:10Z) - Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。
我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-03T02:56:26Z) - Decision from Suboptimal Classifiers: Excess Risk Pre- and Post-Calibration [52.70324949884702]
バッチ二分決定における近似的後続確率を用いた余剰リスクの定量化を行う。
我々は、再校正のみが後悔のほとんどに対処する体制と、後悔が集団的損失に支配される体制を識別する。
NLP実験では、これらの量によって、より高度なポストトレーニングの期待値が運用コストに値するかどうかが分かる。
論文 参考訳(メタデータ) (2025-03-23T10:52:36Z) - Dynamic Pricing in the Linear Valuation Model using Shape Constraints [21.319339643047826]
線形評価モデルにおける検閲データに対する動的価格設定に対する形状制約付きアプローチを提案する。
本手法は, 文献における既往の方法と比較して, 経験的後悔の度合いを低くする。
論文 参考訳(メタデータ) (2025-02-09T04:58:33Z) - Contextual Dynamic Pricing: Algorithms, Optimality, and Local Differential Privacy Constraints [10.057344315478709]
企業が商品をT$で販売する状況的動的価格問題について検討する。
まず、最適後悔上限は、対数係数まで、次数$sqrtdT$であることを示す。
理論的結果の重要な洞察は、動的価格と文脈的マルチアームバンディット問題との本質的な関係である。
論文 参考訳(メタデータ) (2024-06-04T15:44:10Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,このドメイン内のモデルについて考察する。-文脈的デュエルバンディット(contextual dueling bandits)と,正の選好ラベルを相手によって反転させることができる対向フィードバック(reversarial feedback)について考察する。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(RCDB)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Rate-Optimal Policy Optimization for Linear Markov Decision Processes [65.5958446762678]
最安値の$widetilde O (sqrt K)$ regret, $K$はエピソード数を表す。
我々の研究は、バンディットフィードバックのある設定において最適な収束率(w.r.t.$K$)を確立する最初のものである。
現在、最適なレート保証を持つアルゴリズムは知られていない。
論文 参考訳(メタデータ) (2023-08-28T15:16:09Z) - Settling the Sample Complexity of Online Reinforcement Learning [92.02082223856479]
バーンインコストを発生させることなく、最小限の最適後悔を実現する方法を示す。
最適値/コストや一定の分散といった問題依存量の影響を明らかにするために、我々の理論を拡張します。
論文 参考訳(メタデータ) (2023-07-25T15:42:11Z) - Strictly Low Rank Constraint Optimization -- An Asymptotically
$\mathcal{O}(\frac{1}{t^2})$ Method [5.770309971945476]
最適解における空間性を促進するために,テキスト規則化を用いた非テキスト・非滑らかな問題のクラスを提案する。
我々のアルゴリズムは、滑らかな凸問題に対する一階法に対するネステロフの最適収束と全く同じ$Ofrac(t2)$の特異収束を達成することができることを示す。
論文 参考訳(メタデータ) (2023-07-04T16:55:41Z) - Statistical Learning with Sublinear Regret of Propagator Models [3.1755820123640612]
本稿では,未知の畳み込みプロパゲータによって駆動される過渡的な衝撃価格と,未知のパラメータを持つ線形仮的衝撃価格の両方を作成しながら,エージェントが危険資産を清算する学習問題を考察する。
本稿では,探索と搾取を交互に行うトレーディングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-12T17:16:27Z) - The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-03T02:55:55Z) - Towards Agnostic Feature-based Dynamic Pricing: Linear Policies vs
Linear Valuation with Unknown Noise [16.871660060209674]
我々は,$tildeO(Tfrac34)$の後悔を実現するアルゴリズムを示し,$Omega(Tfrac35)$から$tildeOmega(Tfrac23)$への最もよく知られた下限を改善する。
その結果, 弱い仮定の下では, 特徴量に基づく動的価格設定が可能であることが示唆された。
論文 参考訳(メタデータ) (2022-01-27T06:40:03Z) - On Dynamic Pricing with Covariates [6.6543199581017625]
UCBとThompsonのサンプリングに基づく価格設定アルゴリズムは、$O(dsqrtTlog T)$ regret upper boundを実現できることを示す。
私たちの後悔に対する上限は、対数的要因までの下位境界と一致します。
論文 参考訳(メタデータ) (2021-12-25T16:30:13Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z) - Dynamic Pricing and Learning under the Bass Model [16.823029377470366]
マーケットサイズが$m$である場合、オーダー$tilde O(m2/3)$の確率後悔保証を満足するアルゴリズムを開発する。
多くの後悔の分析結果とは異なり、現在の問題では市場規模$m$が複雑さの基本的な要因である。
論文 参考訳(メタデータ) (2021-03-09T03:27:33Z) - Off-Policy Interval Estimation with Lipschitz Value Iteration [29.232245317776723]
一般の連続した環境下での政治外評価のための区間境界を求めるための正当な手法を提案する。
リプシッツ値の反復法を導入し、単調に間隔を縮める。
論文 参考訳(メタデータ) (2020-10-29T07:25:56Z) - Dynamic Regret of Convex and Smooth Functions [93.71361250701075]
非定常環境におけるオンライン凸最適化について検討する。
パフォーマンス指標として動的後悔を選択します。
本研究では, 滑らかさを活かして, 動的後悔をさらに高めることが可能であることを示す。
論文 参考訳(メタデータ) (2020-07-07T14:10:57Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。