論文の概要: Harnessing Unimodality in Semiparametric Contextual Pricing via Oracle Price Map Learning
- arxiv url: http://arxiv.org/abs/2605.15411v1
- Date: Thu, 14 May 2026 20:53:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.100189
- Title: Harnessing Unimodality in Semiparametric Contextual Pricing via Oracle Price Map Learning
- Title(参考訳): オラクルプライスマップ学習による半パラメトリック文脈価格の一様性
- Authors: Yingying Fan, Yuxuan Han, Jinchi Lv, Xiaocong Xu, Zhengyuan Zhou,
- Abstract要約: 半パラメトリックスカラー・インデックス評価モデルにおいて、潜在値が $v_t_ast(mathsf c_t)+_t$ である場合の文脈力学について検討する。
主要な決定対象は、スカラーインデックス$u=_ast(mathsf c)$とノイズテールによって誘導されるオラクル価格マップ$umapsto past(u)$である。
我々は、スカラーインデックスを入力とし、ベンチマークをローカライズするモジュラー粗大なポリシーである$mathsfORBIT$を通じてそのような構造を利用する。
- 参考スコア(独自算出の注目度): 22.257005185551378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study contextual dynamic pricing in a semiparametric scalar-index valuation model where the latent value is $v_t=μ_\ast(\mathsf c_t)+ξ_t$, with an unknown utility map $μ_\ast$ and an unknown additive noise distribution. The key decision object is the one-dimensional oracle price map $u\mapsto p^\ast(u)$ induced by the scalar index $u=μ_\ast(\mathsf c)$ and the noise tail. Under the $β$-Hölder smoothness of the tail function for $β\geq 2$ and a revenue-geometry condition that gives a unique, stable, interior maximizer, this oracle map is itself $(β-1)$-smooth. We exploit such structure through $\mathsf{ORBIT}$, a modular coarse-to-fine policy that takes a scalar pilot index as input, localizes a benchmark price in each active bin, and learns a local polynomial approximation of the oracle map inside a trust region via bandit convex optimization. For the baseline linear utility model $μ_\ast(\mathsf c)=\mathsf c^\topθ_\ast$, an adaptive elliptical exploration scheme constructs the required scalar pilot online without distributional assumptions on the contexts. The resulting policy achieves regret $\widetilde{O}\big(T^{\frac{2β-1}{4β-3}}+\sqrt{dT}\big)$. For fixed $d$, we establish a matching lower bound in the horizon dependence, unveiling that the nonparametric oracle-map learning term is minimax sharp. The same scalar-pilot interface also yields extensions to sparse high-dimensional linear utility and nonparametric Hölder utility.
- Abstract(参考訳): 半パラメトリックスカラー・インデックス・アセスメントモデルにおいて、潜在値が$v_t=μ_\ast(\mathsf c_t)+\_t$であり、未知のユーティリティマップ$μ_\ast$と未知の付加雑音分布を持つコンテキスト動的価格について検討する。
鍵となる決定対象は、1次元のオラクル価格マップ $u\mapsto p^\ast(u)$ であり、スカラー指数 $u=μ_\ast(\mathsf c)$ とノイズテールによって誘導される。
尾関数の$β$-ヘルダー滑らかさと、一意で安定で内部の最大値を与える収益幾何学条件の下では、このオラクル写像はそれ自身$(β-1)$-smoothである。
このような構造を$\mathsf{ORBIT}$で利用し、スカラーパイロットインデックスを入力とし、各アクティブビンにベンチマーク価格をローカライズし、ビジット凸最適化により信頼領域内のオラクルマップの局所多項式近似を学習する。
ベースライン線形ユーティリティモデル $μ_\ast(\mathsf c)=\mathsf c^\topθ_\ast$ に対して、適応楕円探索スキームは、コンテキスト上の分布仮定なしで、必要なスカラーパイロットをオンラインで構築する。
結果として得られるポリシーは、後悔の$\widetilde{O}\big(T^{\frac{2β-1}{4β-3}}+\sqrt{dT}\big)$である。
固定$d$の場合、地平線依存の一致した下限を確立し、非パラメトリックオラクルマップ学習項が極小シャープであることを明らかにする。
同じスカラー・パイロットインタフェースは、スパース高次元線型効用と非パラメトリック・ヘルダー効用にも拡張をもたらす。
関連論文リスト
- Learning and Computation of $Φ$-Equilibria at the Frontier of Tractability [85.07238533644636]
$Phi$-equilibriaは、オンライン学習とゲーム理論の中心にある、強力で柔軟なフレームワークだ。
効率的なオンラインアルゴリズムは、$textpoly(d, k)/epsilon2$ラウンドを使用して、平均$Phi$-regretを最大$epsilon$で生成することを示す。
また、オンライン設定において、ほぼ一致した下限を示し、その結果、$Phi$-regretの学習可能性を取得する偏差の族が初めて得られる。
論文 参考訳(メタデータ) (2025-02-25T19:08:26Z) - Optimal Sketching for Residual Error Estimation for Matrix and Vector Norms [50.15964512954274]
線形スケッチを用いた行列とベクトルノルムの残差誤差推定問題について検討する。
これは、前作とほぼ同じスケッチサイズと精度で、経験的にかなり有利であることを示す。
また、スパースリカバリ問題に対して$Omega(k2/pn1-2/p)$低いバウンダリを示し、これは$mathrmpoly(log n)$ factorまで厳密である。
論文 参考訳(メタデータ) (2024-08-16T02:33:07Z) - Parameterized Approximation for Robust Clustering in Discrete Geometric Spaces [2.687607197645453]
次元$Theta(log n)$ が $(sqrt3/2-o(1))$hard である場合でさえ、FPTアルゴリズムを近似する。
また、次元 $Theta(log n)$ が $(sqrt3/2-o(1))$hard であるような特別な場合でさえ、FPTアルゴリズムを近似することを示す。
論文 参考訳(メタデータ) (2023-05-12T08:43:28Z) - Nearly Minimax Optimal Reinforcement Learning with Linear Function
Approximation [25.60689712525918]
本稿では,遷移確率と報酬関数が線形な線形関数近似を用いた強化学習について検討する。
本稿では,新たなアルゴリズムLSVI-UCB$+$を提案し,$H$がエピソード長,$d$が特徴次元,$T$がステップ数である場合に,$widetildeO(HdsqrtT)$ regretboundを実現する。
論文 参考訳(メタデータ) (2022-06-23T06:04:21Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Sparse sketches with small inversion bias [79.77110958547695]
逆バイアスは、逆の共分散に依存する量の推定を平均化するときに生じる。
本研究では、確率行列に対する$(epsilon,delta)$-unbiased estimatorという概念に基づいて、逆バイアスを解析するためのフレームワークを開発する。
スケッチ行列 $S$ が密度が高く、すなわちサブガウスのエントリを持つとき、$(epsilon,delta)$-unbiased for $(Atop A)-1$ は $m=O(d+sqrt d/ のスケッチを持つ。
論文 参考訳(メタデータ) (2020-11-21T01:33:15Z) - $Q$-learning with Logarithmic Regret [60.24952657636464]
楽観的な$Q$は$mathcalOleft(fracSAcdot mathrmpolyleft(Hright)Delta_minlogleft(SATright)right)$ cumulative regret bound, where $S$ is the number of state, $A$ is the number of action, $H$ is the planning horizon, $T$ is the total number of steps, $Delta_min$ is the least sub-Optitimality gap。
論文 参考訳(メタデータ) (2020-06-16T13:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。