論文の概要: Transfer Faster, Price Smarter: Minimax Dynamic Pricing under Cross-Market Preference Shift
- arxiv url: http://arxiv.org/abs/2505.17203v1
- Date: Thu, 22 May 2025 18:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.646298
- Title: Transfer Faster, Price Smarter: Minimax Dynamic Pricing under Cross-Market Preference Shift
- Title(参考訳): より高速で、よりスマートな転送: 市場間の優先シフトの下でのMinimax動的価格設定
- Authors: Yi Zhang, Elynn Chen, Yujun Yan,
- Abstract要約: 我々は、ターゲット市場がK補助市場を活用できる場合のコンテキスト動的価格について検討する。
本稿では,このようなモデルシフト転送を確実に処理するアルゴリズムとして,CM-TDP(Cross-Market Transfer Dynamic Pricing)を提案する。
転送学習、ロバストアグリゲーション、収益最適化をブリッジすることで、CM-TDPはより速く、よりスマートな転送を行う価格システムへと向かっています。
- 参考スコア(独自算出の注目度): 5.471147654736597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study contextual dynamic pricing when a target market can leverage K auxiliary markets -- offline logs or concurrent streams -- whose mean utilities differ by a structured preference shift. We propose Cross-Market Transfer Dynamic Pricing (CM-TDP), the first algorithm that provably handles such model-shift transfer and delivers minimax-optimal regret for both linear and non-parametric utility models. For linear utilities of dimension d, where the difference between source- and target-task coefficients is $s_{0}$-sparse, CM-TDP attains regret $\tilde{O}((d*K^{-1}+s_{0})\log T)$. For nonlinear demand residing in a reproducing kernel Hilbert space with effective dimension $\alpha$, complexity $\beta$ and task-similarity parameter $H$, the regret becomes $\tilde{O}\!(K^{-2\alpha\beta/(2\alpha\beta+1)}T^{1/(2\alpha\beta+1)} + H^{2/(2\alpha+1)}T^{1/(2\alpha+1)})$, matching information-theoretic lower bounds up to logarithmic factors. The RKHS bound is the first of its kind for transfer pricing and is of independent interest. Extensive simulations show up to 50% lower cumulative regret and 5 times faster learning relative to single-market pricing baselines. By bridging transfer learning, robust aggregation, and revenue optimization, CM-TDP moves toward pricing systems that transfer faster, price smarter.
- Abstract(参考訳): ターゲット市場がKの補助市場(オフラインログやコンカレントストリーム)を活用できる場合のコンテキスト動的価格設定について検討する。
本稿では,このようなモデルシフト転送を確実に処理し,線形および非パラメトリックのユーティリティモデルに対して最小限の後悔を与えるアルゴリズムとして,Cross-Market Transfer Dynamic Pricing (CM-TDP)を提案する。
次元 d の線型ユーティリティでは、ソース・タスク係数とターゲット・タスク係数の差が$s_{0}$-sparse となるが、CM-TDP は後悔 $\tilde{O}((d*K^{-1}+s_{0})\log T)$ に達する。
実次元が$\alpha$, complexity $\beta$, task-similarity parameter $H$ の再生カーネルヒルベルト空間に存在する非線形需要に対して、後悔は$\tilde{O}\!
(K^{-2\alpha\beta/(2\alpha\beta+1)}T^{1/(2\alpha\beta+1)} + H^{2/(2\alpha+1)}T^{1/(2\alpha+1)})$。
RKHSバウンダリは、トランスファー価格の第一種であり、独立した利害関係にある。
大規模なシミュレーションでは、累積的後悔が最大50%減少し、単一市場価格ベースラインに対する学習が5倍速くなった。
転送学習、ロバストアグリゲーション、収益最適化をブリッジすることで、CM-TDPはより速く、よりスマートな転送を行う価格システムへと向かっています。
関連論文リスト
- Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Improved Regret Analysis for Variance-Adaptive Linear Bandits and
Horizon-Free Linear Mixture MDPs [12.450760567361531]
オンライン学習問題では,低分散の活用がパフォーマンス保証の厳密化に重要な役割を果たしている。
本研究は, 後悔の限界を著しく改善する新たな分析法を提案する。
我々の分析は、新しい楕円型ポテンシャル数補題に依存している。
論文 参考訳(メタデータ) (2021-11-05T06:47:27Z) - Policy Optimization Using Semiparametric Models for Dynamic Pricing [1.3428344011390776]
商品の市場価値が観測された特徴と市場ノイズに線形である状況的動的価格問題について検討する。
一般化線形モデルからの半パラメトリック推定と未知のリンクとオンライン意思決定を組み合わせた動的統計的学習と意思決定ポリシーを提案する。
論文 参考訳(メタデータ) (2021-09-13T23:50:01Z) - Logarithmic Regret in Feature-based Dynamic Pricing [0.0]
機能ベースの動的価格設定は、差別化された製品の価格設定の人気が高まっているモデルです。
我々は、インフラクティゲンと敵対的な特徴設定のための2つのアルゴリズムを提供し、両方の最適$O(dlogT)$後悔境界を証明します。
さらに、より一般的な設定で$(sqrtt)$情報理論下限を証明し、"需要曲線の知識"が機能ベースの動的価格の指数関数的な改善につながることを実証します。
論文 参考訳(メタデータ) (2021-02-20T00:45:33Z) - Provably Efficient Reinforcement Learning for Discounted MDPs with
Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。
本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。
以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-23T17:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。