論文の概要: Contextual Online Pricing with (Biased) Offline Data
- arxiv url: http://arxiv.org/abs/2507.02762v1
- Date: Thu, 03 Jul 2025 16:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.588996
- Title: Contextual Online Pricing with (Biased) Offline Data
- Title(参考訳): オフラインデータを用いたコンテキストオンライン価格設定
- Authors: Yixuan Zhang, Ruihao Zhu, Qiaomin Xie,
- Abstract要約: バイアスのあるオフラインデータを用いて、コンテキストのオンライン価格について検討する。
Optimism-in-the-face-of-Uncertainty (OFU) ポリシは、最小限の最適化、インスタンス依存のリセットバウンドである $tildemathcalObig を実現する。
- 参考スコア(独自算出の注目度): 22.723289890639723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study contextual online pricing with biased offline data. For the scalar price elasticity case, we identify the instance-dependent quantity $\delta^2$ that measures how far the offline data lies from the (unknown) online optimum. We show that the time length $T$, bias bound $V$, size $N$ and dispersion $\lambda_{\min}(\hat{\Sigma})$ of the offline data, and $\delta^2$ jointly determine the statistical complexity. An Optimism-in-the-Face-of-Uncertainty (OFU) policy achieves a minimax-optimal, instance-dependent regret bound $\tilde{\mathcal{O}}\big(d\sqrt{T} \wedge (V^2T + \frac{dT}{\lambda_{\min}(\hat{\Sigma}) + (N \wedge T) \delta^2})\big)$. For general price elasticity, we establish a worst-case, minimax-optimal rate $\tilde{\mathcal{O}}\big(d\sqrt{T} \wedge (V^2T + \frac{dT }{\lambda_{\min}(\hat{\Sigma})})\big)$ and provide a generalized OFU algorithm that attains it. When the bias bound $V$ is unknown, we design a robust variant that always guarantees sub-linear regret and strictly improves on purely online methods whenever the exact bias is small. These results deliver the first tight regret guarantees for contextual pricing in the presence of biased offline data. Our techniques also transfer verbatim to stochastic linear bandits with biased offline data, yielding analogous bounds.
- Abstract(参考訳): バイアスのあるオフラインデータを用いて、コンテキストのオンライン価格について検討する。
スカラー価格の弾力性の場合、オフラインデータが(未知の)オンライン最適値からどれだけの距離にあるかを測定するインスタンス依存量$\delta^2$を識別する。
我々は、オフラインデータの時間長$T$、バイアスバウンド$V$、サイズ$N$、分散$\lambda_{\min}(\hat{\Sigma})$、および$\delta^2$が統計的複雑さを共同で決定することを示す。
Optimism-in-the-face-of-Uncertainty (OFU) ポリシーは、最小限の最適化されたインスタンス依存の後悔($\tilde{\mathcal{O}}\big(d\sqrt{T} \wedge (V^2T + \frac{dT}{\lambda_{\min}(\hat{\Sigma}) + (N \wedge T) \delta^2})\big)$を達成する。
一般的な価格弾力性のために、最低ケースである最小最大最適化率 $\tilde{\mathcal{O}}\big(d\sqrt{T} \wedge (V^2T + \frac{dT }{\lambda_{\min}(\hat{\Sigma})})\big を確立し、それを達成する一般化 OFUアルゴリズムを提供する。
バイアス境界の$V$が未知の場合、我々は常にサブ線形後悔を保証し、正確なバイアスが小さくなるたびに純粋にオンラインメソッドを厳格に改善する堅牢な変種を設計する。
これらの結果は、バイアスのあるオフラインデータの存在下で、コンテキスト的な価格設定に対する最初の厳格な後悔の保証を提供する。
また, この手法は, バイアス付きオフラインデータを用いた確率線形帯域に動詞を伝達し, 類似境界を導出する。
関連論文リスト
- Heavy-Tailed Linear Bandits: Huber Regression with One-Pass Update [62.96781471194877]
ヘビーテール付きバンディットには、ヘビーテール付きノイズ、トランケーション、中央値の2つの基本戦略が導入されている。
本稿では,オンラインミラー降下フレームワークに基づくEmphone-passアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T09:41:45Z) - Learning to Price Homogeneous Data [6.288169915425957]
価格曲線を近似する新たな離散化手法を開発した。
オンラインアルゴリズムは UCB や FTPL のような古典的なアルゴリズムをベースとしています。
改良された離散化スキームを使用することで、設定で$tildeO(msqrtT)$後悔を達成でき、逆設定で$tildeO(m3/2sqrtT)$後悔を達成できます。
論文 参考訳(メタデータ) (2024-07-07T20:02:52Z) - On Instance-Dependent Bounds for Offline Reinforcement Learning with
Linear Function Approximation [80.86358123230757]
本稿では,Bootstrapped and Constrained Pessimistic Value Iteration (BCP-VI) というアルゴリズムを提案する。
部分的なデータカバレッジの仮定の下で、BCP-VI は最適な Q-値関数に正のギャップがあるときに、オフライン RL に対して $tildemathcalO(frac1K)$ の高速レートを得る。
これらは、アダプティブデータからの線形関数近似を持つオフラインRLに対してそれぞれ、最初の$tildemathcalO(frac1K)$boundと絶対零部分最適境界である。
論文 参考訳(メタデータ) (2022-11-23T18:50:44Z) - Settling the Sample Complexity of Model-Based Offline Reinforcement
Learning [50.5790774201146]
オフライン強化学習(RL)は、事前収集されたデータを用いて、さらなる探索を行わずに学習する。
事前のアルゴリズムや分析は、最適なサンプルの複雑さに悩まされるか、サンプルの最適性に到達するために高いバーンインコストがかかるかのいずれかである。
モデルベース(あるいは"プラグイン")アプローチは,バーンインコストを伴わずに,最小限のサンプル複雑性を実現することを実証する。
論文 参考訳(メタデータ) (2022-04-11T17:26:19Z) - Towards Instance-Optimal Offline Reinforcement Learning with Pessimism [34.54294677335518]
我々は、未知マルコフ決定過程(MDP)における報酬最大化ポリシーの学習を目標とするオフライン強化学習(オフラインRL)問題について検討する。
本研究では、適応悲観的値反復法(APVI)アルゴリズムを分析し、[Oleft(sum_h=1Hsum_s_h,a_hdpistar_h(s_h,a_h)sqrtfracmathrmmathrmVar_]とほぼ一致する準最適上限を導出する。
論文 参考訳(メタデータ) (2021-10-17T01:21:52Z) - Nearly Horizon-Free Offline Reinforcement Learning [97.36751930393245]
S$状態、$A$アクション、計画的地平$H$で、エピソードな時間同質なMarkov決定プロセスに関するオフライン強化学習を再考する。
経験的MDPを用いた評価と計画のための,約$H$自由なサンプル複雑性境界の最初の集合を得る。
論文 参考訳(メタデータ) (2021-03-25T18:52:17Z) - Smoothed Analysis with Adaptive Adversaries [28.940767013349408]
オンライン問題に対する新しいアルゴリズムの保証を平滑化解析モデルで証明する。
このモデルでは、敵は各時間に一様分布の$tfrac1sigma$倍の密度関数を持つ入力分布を選択する。
本研究の結果は,アルゴリズムの決定と前回の時間ステップにおける入力の実現に基づいて,入力分布を選択可能な適応的敵に対して成り立っている。
論文 参考訳(メタデータ) (2021-02-16T20:54:49Z) - Optimal Regret Algorithm for Pseudo-1d Bandit Convex Optimization [51.23789922123412]
我々は,バンディットフィードバックを用いてオンライン学習を学習する。
learnerは、コスト/リワード関数が"pseudo-1d"構造を許可するゼロ次オラクルのみにアクセスできる。
我々は、$T$がラウンドの数である任意のアルゴリズムの後悔のために$min(sqrtdT、T3/4)$の下限を示しています。
ランダム化オンライングラデーション下降とカーネル化指数重み法を組み合わせた新しいアルゴリズムsbcalgを提案し,疑似-1d構造を効果的に活用する。
論文 参考訳(メタデータ) (2021-02-15T08:16:51Z) - On Frequentist Regret of Linear Thompson Sampling [8.071506311915398]
本稿では,決定者側が $mathbbRd$ の時間依存ベクトル集合から行動を選択し,雑音の報奨を受ける線形帯域問題について検討する。
目的は、後悔を最小限に抑えることであり、決定者の累積的な報奨と、各アクションの期待報奨にアクセスできる神託の報奨とを、一連のT$決定に比較して区別することである。
論文 参考訳(メタデータ) (2020-06-11T20:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。