Fugu-MT 論文翻訳(概要): Transfer Faster, Price Smarter: Minimax Dynamic Pricing under Cross-Market Preference Shift

論文の概要: Transfer Faster, Price Smarter: Minimax Dynamic Pricing under Cross-Market Preference Shift

arxiv url: http://arxiv.org/abs/2505.17203v1
Date: Thu, 22 May 2025 18:18:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.646298
Title: Transfer Faster, Price Smarter: Minimax Dynamic Pricing under Cross-Market Preference Shift
Title（参考訳）: より高速で、よりスマートな転送: 市場間の優先シフトの下でのMinimax動的価格設定
Authors: Yi Zhang, Elynn Chen, Yujun Yan,
Abstract要約: 我々は、ターゲット市場がK補助市場を活用できる場合のコンテキスト動的価格について検討する。本稿では,このようなモデルシフト転送を確実に処理するアルゴリズムとして,CM-TDP(Cross-Market Transfer Dynamic Pricing)を提案する。転送学習、ロバストアグリゲーション、収益最適化をブリッジすることで、CM-TDPはより速く、よりスマートな転送を行う価格システムへと向かっています。
参考スコア（独自算出の注目度）: 5.471147654736597
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study contextual dynamic pricing when a target market can leverage K auxiliary markets -- offline logs or concurrent streams -- whose mean utilities differ by a structured preference shift. We propose Cross-Market Transfer Dynamic Pricing (CM-TDP), the first algorithm that provably handles such model-shift transfer and delivers minimax-optimal regret for both linear and non-parametric utility models. For linear utilities of dimension d, where the difference between source- and target-task coefficients is $s_{0}$-sparse, CM-TDP attains regret $\tilde{O}((d*K^{-1}+s_{0})\log T)$. For nonlinear demand residing in a reproducing kernel Hilbert space with effective dimension $\alpha$, complexity $\beta$ and task-similarity parameter $H$, the regret becomes $\tilde{O}\!(K^{-2\alpha\beta/(2\alpha\beta+1)}T^{1/(2\alpha\beta+1)} + H^{2/(2\alpha+1)}T^{1/(2\alpha+1)})$, matching information-theoretic lower bounds up to logarithmic factors. The RKHS bound is the first of its kind for transfer pricing and is of independent interest. Extensive simulations show up to 50% lower cumulative regret and 5 times faster learning relative to single-market pricing baselines. By bridging transfer learning, robust aggregation, and revenue optimization, CM-TDP moves toward pricing systems that transfer faster, price smarter.
Abstract（参考訳）: ターゲット市場がKの補助市場(オフラインログやコンカレントストリーム)を活用できる場合のコンテキスト動的価格設定について検討する。本稿では,このようなモデルシフト転送を確実に処理し,線形および非パラメトリックのユーティリティモデルに対して最小限の後悔を与えるアルゴリズムとして,Cross-Market Transfer Dynamic Pricing (CM-TDP)を提案する。次元 d の線型ユーティリティでは、ソース・タスク係数とターゲット・タスク係数の差が$s_{0}$-sparse となるが、CM-TDP は後悔 $\tilde{O}((d*K^{-1}+s_{0})\log T)$ に達する。実次元が$\alpha$, complexity $\beta$, task-similarity parameter $H$ の再生カーネルヒルベルト空間に存在する非線形需要に対して、後悔は$\tilde{O}\! (K^{-2\alpha\beta/(2\alpha\beta+1)}T^{1/(2\alpha\beta+1)} + H^{2/(2\alpha+1)}T^{1/(2\alpha+1)})$。 RKHSバウンダリは、トランスファー価格の第一種であり、独立した利害関係にある。大規模なシミュレーションでは、累積的後悔が最大50%減少し、単一市場価格ベースラインに対する学習が5倍速くなった。転送学習、ロバストアグリゲーション、収益最適化をブリッジすることで、CM-TDPはより速く、よりスマートな転送を行う価格システムへと向かっています。

関連論文リスト

Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文参考訳（メタデータ） (2025-10-17T02:58:35Z)
Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文参考訳（メタデータ） (2024-11-05T13:55:52Z)
Demand Balancing in Primal-Dual Optimization for Blind Network Revenue Management [6.72809363581332]
本稿では,従来のネットワーク収益管理問題を未知の非パラメトリック要求で解決する,最適理論的後悔を伴う実用的なアルゴリズムを提案する。重要な技術的貢献は、いわゆる需要バランスであり、これは資源在庫の制約に対する欠陥の違反を相殺するために、各期間に一次解(すなわち価格)を他の価格と組み合わせるものである。
論文参考訳（メタデータ） (2024-04-06T01:39:51Z)
Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-07T15:03:50Z)
Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文参考訳（メタデータ） (2023-08-31T17:57:50Z)
Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文参考訳（メタデータ） (2022-12-12T18:58:59Z)
Horizon-Free and Variance-Dependent Reinforcement Learning for Latent Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文参考訳（メタデータ） (2022-10-20T21:32:01Z)
Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文参考訳（メタデータ） (2022-10-15T09:22:22Z)
Improved Regret Analysis for Variance-Adaptive Linear Bandits and Horizon-Free Linear Mixture MDPs [12.450760567361531]
オンライン学習問題では,低分散の活用がパフォーマンス保証の厳密化に重要な役割を果たしている。本研究は, 後悔の限界を著しく改善する新たな分析法を提案する。我々の分析は、新しい楕円型ポテンシャル数補題に依存している。
論文参考訳（メタデータ） (2021-11-05T06:47:27Z)
A Law of Iterated Logarithm for Multi-Agent Reinforcement Learning [3.655021726150368]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)では、複数のエージェントが共通の環境と相互作用し、シーケンシャルな意思決定において共有問題を解く。我々は、MARLで有用な分散非線形近似スキームの族を反復する新しい法則を導出する。
論文参考訳（メタデータ） (2021-10-27T08:01:17Z)
Policy Optimization Using Semiparametric Models for Dynamic Pricing [1.3428344011390776]
商品の市場価値が観測された特徴と市場ノイズに線形である状況的動的価格問題について検討する。一般化線形モデルからの半パラメトリック推定と未知のリンクとオンライン意思決定を組み合わせた動的統計的学習と意思決定ポリシーを提案する。
論文参考訳（メタデータ） (2021-09-13T23:50:01Z)
Logarithmic Regret in Feature-based Dynamic Pricing [0.0]
機能ベースの動的価格設定は、差別化された製品の価格設定の人気が高まっているモデルです。我々は、インフラクティゲンと敵対的な特徴設定のための2つのアルゴリズムを提供し、両方の最適$O(dlogT)$後悔境界を証明します。さらに、より一般的な設定で$(sqrtt)$情報理論下限を証明し、"需要曲線の知識"が機能ベースの動的価格の指数関数的な改善につながることを実証します。
論文参考訳（メタデータ） (2021-02-20T00:45:33Z)
Provably Efficient Reinforcement Learning for Discounted MDPs with Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文参考訳（メタデータ） (2020-06-23T17:08:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。