Fugu-MT 論文翻訳(概要): Contextual Dynamic Pricing: Algorithms, Optimality, and Local Differential Privacy Constraints

論文の概要: Contextual Dynamic Pricing: Algorithms, Optimality, and Local Differential Privacy Constraints

arxiv url: http://arxiv.org/abs/2406.02424v1
Date: Tue, 4 Jun 2024 15:44:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 15:30:46.810710
Title: Contextual Dynamic Pricing: Algorithms, Optimality, and Local Differential Privacy Constraints
Title（参考訳）: 文脈動的価格:アルゴリズム、最適性、局所微分プライバシー制約
Authors: Zifeng Zhao, Feiyu Jiang, Yi Yu,
Abstract要約: 企業が商品をT$で販売する状況的動的価格問題について検討する。まず、最適後悔上限は、対数係数まで、次数$sqrtdT$であることを示す。理論的結果の重要な洞察は、動的価格と文脈的マルチアームバンディット問題との本質的な関係である。
参考スコア（独自算出の注目度）: 10.057344315478709
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the contextual dynamic pricing problem where a firm sells products to $T$ sequentially arriving consumers that behave according to an unknown demand model. The firm aims to maximize its revenue, i.e. minimize its regret over a clairvoyant that knows the model in advance. The demand model is a generalized linear model (GLM), allowing for a stochastic feature vector in $\mathbb R^d$ that encodes product and consumer information. We first show that the optimal regret upper bound is of order $\sqrt{dT}$, up to a logarithmic factor, improving upon existing upper bounds in the literature by a $\sqrt{d}$ factor. This sharper rate is materialised by two algorithms: a confidence bound-type (supCB) algorithm and an explore-then-commit (ETC) algorithm. A key insight of our theoretical result is an intrinsic connection between dynamic pricing and the contextual multi-armed bandit problem with many arms based on a careful discretization. We further study contextual dynamic pricing under the local differential privacy (LDP) constraints. In particular, we propose a stochastic gradient descent based ETC algorithm that achieves an optimal regret upper bound of order $d\sqrt{T}/\epsilon$, up to a logarithmic factor, where $\epsilon>0$ is the privacy parameter. The regret upper bounds with and without LDP constraints are accompanied by newly constructed minimax lower bounds, which further characterize the cost of privacy. Extensive numerical experiments and a real data application on online lending are conducted to illustrate the efficiency and practical value of the proposed algorithms in dynamic pricing.
Abstract（参考訳）: 本研究では、企業が商品をT$で販売するコンテキスト動的価格問題について検討する。同社は、その収益を最大化すること、すなわち、前もってモデルを知っている透かし師に対する後悔を最小限にすることを目的としている。需要モデルは一般化線形モデル(GLM)であり、製品と消費者情報をエンコードする$\mathbb R^d$の確率的特徴ベクトルを可能にする。まず、最適後悔の上界は次数$\sqrt{dT}$、対数係数までで、文献の既存の上界を$\sqrt{d}$ factorで改善することを示す。このシャープレートは、信頼境界型(supCB)アルゴリズムと探索-then-commit(ETC)アルゴリズムの2つのアルゴリズムによって実現されている。我々の理論結果に対する重要な洞察は、動的価格と、注意深い離散化に基づく多くのアームによるコンテキスト多武装バンディット問題との本質的な関係である。さらに,ローカルディファレンシャルプライバシ(LDP)制約下でのコンテキスト動的価格設定について検討する。特に,次数$d\sqrt{T}/\epsilon$の最適後悔上限を対数係数まで達成する確率勾配降下に基づくETCアルゴリズムを提案し,ここではプライバシーパラメータを$\epsilon>0$とする。 LDP制約のない後悔の上限には、新たに構築されたミニマックス下限が伴い、プライバシのコストをさらに高める。動的価格設定における提案アルゴリズムの効率性と実用性を示すため,大規模な数値実験とオンライン貸付に関する実データ応用を行った。

関連論文リスト

$\ abla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。 $nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文参考訳（メタデータ） (2026-03-05T08:42:54Z)
Smoothed Normalization for Efficient Distributed Private Optimization [54.197255548244705]
フェデレートされた学習は、参加者のプライバシを備えた機械学習モデルを可能にする。トレーニングやフィードバックのない問題に対して、差分にプライベートな分散手法は存在しない。証明可能な収束保証付き分散アルゴリズム$alpha$-$sf NormEC$を導入する。
論文参考訳（メタデータ） (2025-02-19T07:10:32Z)
Beyond Covariance Matrix: The Statistical Complexity of Private Linear Regression [66.93988594607842]
プライバシー制約の下では、プライベート線形回帰の複雑さは通常の共分散行列によって捉えられる。最適率を達成するための情報重み付け回帰手法を提案する。特に、我々の結果は、共同プライバシーは追加費用がほとんどないことを示している。
論文参考訳（メタデータ） (2025-02-18T18:35:24Z)
Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文参考訳（メタデータ） (2024-11-05T13:55:52Z)
Minimax Optimality in Contextual Dynamic Pricing with General Valuation Models [4.156757591117864]
本稿では,問題に対する仮定を最小化しながら,改善された後悔境界を実現する新しいアルゴリズムを提案する。本手法は, 一般関数空間を考慮し, 動的価格設定によく用いられる線形評価モデルを超えて拡張する。
論文参考訳（メタデータ） (2024-06-24T23:43:56Z)
FLIPHAT: Joint Differential Privacy for High Dimensional Sparse Linear Bandits [8.908421753758475]
高次元スパース線形帯域は、シーケンシャルな意思決定問題の効率的なモデルとして機能する。データプライバシの懸念により、我々は、共同でプライベートな高次元の疎線形帯域について検討する。 FLIPHATは,プライバシパラメータの点で最適に後悔することを示す。
論文参考訳（メタデータ） (2024-05-22T22:19:12Z)
Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文参考訳（メタデータ） (2024-02-14T07:52:00Z)
Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文参考訳（メタデータ） (2023-10-02T08:15:52Z)
On the Complexity of Differentially Private Best-Arm Identification with Fixed Confidence [16.295693624977563]
我々は、$epsilon$-global Differential Privacyの下で、信頼度を固定したベストアーム識別の問題について検討する。われわれの限界は、プライバシー予算によって2つのプライバシー体制が存在することを示唆している。我々はトップ2アルゴリズムの$epsilon$-global DP変種であるAdaP-TTを提案する。
論文参考訳（メタデータ） (2023-09-05T13:07:25Z)
Settling the Sample Complexity of Online Reinforcement Learning [92.02082223856479]
バーンインコストを発生させることなく、最小限の最適後悔を実現する方法を示す。最適値/コストや一定の分散といった問題依存量の影響を明らかにするために、我々の理論を拡張します。
論文参考訳（メタデータ） (2023-07-25T15:42:11Z)
Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文参考訳（メタデータ） (2022-12-12T21:37:36Z)
Private Online Prediction from Experts: Separations and Faster Rates [74.52487417350221]
専門家によるオンライン予測は機械学習の基本的な問題であり、いくつかの研究がプライバシーの制約の下でこの問題を研究している。本研究では,非適応的敵に対する最良な既存アルゴリズムの残差を克服する新たなアルゴリズムを提案し,解析する。
論文参考訳（メタデータ） (2022-10-24T18:40:19Z)
Normalized/Clipped SGD with Perturbation for Differentially Private Non-Convex Optimization [94.06564567766475]
DP-SGDとDP-NSGDは、センシティブなトレーニングデータを記憶する大規模モデルのリスクを軽減する。 DP-NSGD は DP-SGD よりも比較的チューニングが比較的容易であるのに対して,これらの2つのアルゴリズムは同様の精度を実現する。
論文参考訳（メタデータ） (2022-06-27T03:45:02Z)
Minimax Optimal Quantization of Linear Models: Information-Theoretic Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文参考訳（メタデータ） (2022-02-23T02:39:04Z)
Online Allocation with Two-sided Resource Constraints [44.5635910908944]
我々は,要求が順次到着する,リソース制約の低いオンラインアロケーション問題を考える。提案手法では, リクエスト全体を知るオフライン問題に対して, 1-O (fracepsilonalpha-epsilon)$-competitive ratioを求めるアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-12-28T02:21:06Z)
On Dynamic Pricing with Covariates [6.6543199581017625]
UCBとThompsonのサンプリングに基づく価格設定アルゴリズムは、$O(dsqrtTlog T)$ regret upper boundを実現できることを示す。私たちの後悔に対する上限は、対数的要因までの下位境界と一致します。
論文参考訳（メタデータ） (2021-12-25T16:30:13Z)
Dynamic Pricing and Learning under the Bass Model [16.823029377470366]
マーケットサイズが$m$である場合、オーダー$tilde O(m2/3)$の確率後悔保証を満足するアルゴリズムを開発する。多くの後悔の分析結果とは異なり、現在の問題では市場規模$m$が複雑さの基本的な要因である。
論文参考訳（メタデータ） (2021-03-09T03:27:33Z)
Learning with User-Level Privacy [61.62978104304273]
ユーザレベルの差分プライバシー制約下での学習課題を,アルゴリズムを用いて解析する。個々のサンプルのプライバシーのみを保証するのではなく、ユーザレベルのdpはユーザの貢献全体を保護します。プライバシコストが$tau$に比例した$K$適応的に選択されたクエリのシーケンスにプライベートに答えるアルゴリズムを導き出し、私たちが検討する学習タスクを解決するためにそれを適用します。
論文参考訳（メタデータ） (2021-02-23T18:25:13Z)
Nearly Dimension-Independent Sparse Linear Bandit over Small Action Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文参考訳（メタデータ） (2020-09-04T04:10:39Z)
Efficient Optimistic Exploration in Linear-Quadratic Regulators via Lagrangian Relaxation [107.06364966905821]
線形2次レギュレータ(LQR)設定における探索・探索ジレンマについて検討した。有限 MDP に対する楽観的アルゴリズムで用いられる拡張値反復アルゴリズムに着想を得て,Oulq の楽観的最適化を緩和することを提案する。我々は、少なくとも$Obig(log (1/epsilon)big)$ Riccati方程式を解くことで、$epsilon$-OptimisticControllerを効率的に計算できることを示した。
論文参考訳（メタデータ） (2020-07-13T16:30:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。