Fugu-MT 論文翻訳(概要): Improved Algorithms for Contextual Dynamic Pricing

論文の概要: Improved Algorithms for Contextual Dynamic Pricing

arxiv url: http://arxiv.org/abs/2406.11316v1
Date: Mon, 17 Jun 2024 08:26:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 15:50:52.714707
Title: Improved Algorithms for Contextual Dynamic Pricing
Title（参考訳）: 文脈動的価格設定のための改良アルゴリズム
Authors: Matilde Tullii, Solenne Gaucher, Nadav Merlis, Vianney Perchet,
Abstract要約: コンテキスト動的価格設定では、売り手はコンテキスト情報に基づいて商品を順次価格設定する。提案アルゴリズムは,$tildemathcalO(T2/3)$の最適再帰限界を達成し,既存の結果を改善する。このモデルに対して,我々のアルゴリズムは,文脈空間の次元を$d$とする,後悔の$tildemathcalO(Td+2beta/d+3beta)$を得る。
参考スコア（独自算出の注目度）: 24.530341596901476
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In contextual dynamic pricing, a seller sequentially prices goods based on contextual information. Buyers will purchase products only if the prices are below their valuations. The goal of the seller is to design a pricing strategy that collects as much revenue as possible. We focus on two different valuation models. The first assumes that valuations linearly depend on the context and are further distorted by noise. Under minor regularity assumptions, our algorithm achieves an optimal regret bound of $\tilde{\mathcal{O}}(T^{2/3})$, improving the existing results. The second model removes the linearity assumption, requiring only that the expected buyer valuation is $\beta$-H\"older in the context. For this model, our algorithm obtains a regret $\tilde{\mathcal{O}}(T^{d+2\beta/d+3\beta})$, where $d$ is the dimension of the context space.
Abstract（参考訳）: コンテキスト動的価格設定では、売り手はコンテキスト情報に基づいて商品を順次価格設定する。買い手は価格がバリュエーションを下回った場合にのみ商品を購入する。売り手の目標は、できるだけ多くの収益を集める価格戦略を設計することである。私たちは2つの異なる評価モデルに焦点を当てています。第一に、評価は文脈に線形に依存すると仮定し、さらにノイズによって歪められる。マイナーな正規性仮定の下で、我々のアルゴリズムは$\tilde{\mathcal{O}}(T^{2/3})$の最適後悔境界を達成し、既存の結果を改善する。 2つ目のモデルは線形性の仮定を取り除き、期待されるバイヤーのバリュエーションが文脈において$\beta$-H\"olderであることを要求する。このモデルに対して、我々のアルゴリズムは、後悔する$\tilde{\mathcal{O}}(T^{d+2\beta/d+3\beta})$を取得し、$d$は文脈空間の次元である。

関連論文リスト

Dynamic Assortment Selection and Pricing with Censored Preference Feedback [10.988222071035198]
本稿では,テキストセンタ型マルチノミアルロジット(C-MNL)選択モデルに基づく新しいフレームワークを提案する。売り手は価格で一連の商品を提示し、買い手は価格より高い価格で商品をフィルタリングし、残りの選択肢から少なくとも1つの商品を購入する。我々のアルゴリズムは $tildeO(dfrac32sqrtT/kappa)$ と $tildeO(d2sqrtT/kappa) の残差を実現する。
論文参考訳（メタデータ） (2025-04-03T06:56:08Z)
Near-optimal Regret Using Policy Optimization in Online MDPs with Aggregate Bandit Feedback [49.84060509296641]
オンライン有限水平マルコフ決定過程を逆向きに変化した損失と総括的帯域幅フィードバック(フルバンド幅)を用いて研究する。この種のフィードバックの下では、エージェントは、軌跡内の各中間段階における個々の損失よりも、軌跡全体に生じる総損失のみを観察する。この設定のための最初のポリシー最適化アルゴリズムを紹介します。
論文参考訳（メタデータ） (2025-02-06T12:03:24Z)
Minimax Optimality in Contextual Dynamic Pricing with General Valuation Models [4.156757591117864]
本稿では,問題に対する仮定を最小化しながら,改善された後悔境界を実現する新しいアルゴリズムを提案する。本手法は, 一般関数空間を考慮し, 動的価格設定によく用いられる線形評価モデルを超えて拡張する。
論文参考訳（メタデータ） (2024-06-24T23:43:56Z)
Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文参考訳（メタデータ） (2024-05-24T11:22:19Z)
Efficient Frameworks for Generalized Low-Rank Matrix Bandit Problems [61.85150061213987]
一般化線形モデル (GLM) フレームワークを用いて, citelu2021low で提案した一般化低ランク行列帯域問題について検討する。既存のアルゴリズムの計算不可能性と理論的制約を克服するため,まずG-ESTTフレームワークを提案する。 G-ESTT は $tildeO(sqrt(d_1+d_2)3/2Mr3/2T)$ bound of regret を達成でき、G-ESTS は $tildeO を達成できることを示す。
論文参考訳（メタデータ） (2024-01-14T14:14:19Z)
Dynamic Pricing and Learning with Bayesian Persuasion [18.59029578133633]
我々は,商品の価格設定に加えて,販売者が「広告計画」にコミットする,新たな動的価格設定と学習環境を考える。我々は、バイエルンの一般的な説得フレームワークを使用して、これらのシグナルが購入者の評価と購入反応に与える影響をモデル化する。我々は、過去の購入応答を利用して最適な価格と広告戦略を適応的に学習できるオンラインアルゴリズムを設計する。
論文参考訳（メタデータ） (2023-04-27T17:52:06Z)
Borda Regret Minimization for Generalized Linear Dueling Bandits [65.09919504862496]
本稿では,ボルダスコアが最も高い項目を識別することを目的とした,デュエルバンディットに対するボルダ後悔最小化問題について検討する。本稿では,多くの既存モデルをカバーする一般化線形デュエルバンドモデルのリッチクラスを提案する。我々のアルゴリズムは$tildeO(d2/3 T2/3)$ regretを達成し、これも最適である。
論文参考訳（メタデータ） (2023-03-15T17:59:27Z)
Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文参考訳（メタデータ） (2022-12-12T21:37:36Z)
A Reinforcement Learning Approach in Multi-Phase Second-Price Auction Design [158.0041488194202]
多相第2価格オークションにおけるリザーブ価格の最適化について検討する。売り手の視点からは、潜在的に非現実的な入札者の存在下で、環境を効率的に探索する必要がある。第三に、売り手のステップごとの収益は未知であり、非線形であり、環境から直接観察することさえできない。
論文参考訳（メタデータ） (2022-10-19T03:49:05Z)
Towards Agnostic Feature-based Dynamic Pricing: Linear Policies vs Linear Valuation with Unknown Noise [16.871660060209674]
我々は,$tildeO(Tfrac34)$の後悔を実現するアルゴリズムを示し,$Omega(Tfrac35)$から$tildeOmega(Tfrac23)$への最もよく知られた下限を改善する。その結果, 弱い仮定の下では, 特徴量に基づく動的価格設定が可能であることが示唆された。
論文参考訳（メタデータ） (2022-01-27T06:40:03Z)
Dynamic Pricing and Learning under the Bass Model [16.823029377470366]
マーケットサイズが$m$である場合、オーダー$tilde O(m2/3)$の確率後悔保証を満足するアルゴリズムを開発する。多くの後悔の分析結果とは異なり、現在の問題では市場規模$m$が複雑さの基本的な要因である。
論文参考訳（メタデータ） (2021-03-09T03:27:33Z)
Logarithmic Regret in Feature-based Dynamic Pricing [0.0]
機能ベースの動的価格設定は、差別化された製品の価格設定の人気が高まっているモデルです。我々は、インフラクティゲンと敵対的な特徴設定のための2つのアルゴリズムを提供し、両方の最適$O(dlogT)$後悔境界を証明します。さらに、より一般的な設定で$(sqrtt)$情報理論下限を証明し、"需要曲線の知識"が機能ベースの動的価格の指数関数的な改善につながることを実証します。
論文参考訳（メタデータ） (2021-02-20T00:45:33Z)
Revisiting Smoothed Online Learning [70.09792747315323]
オンライン学習者がヒットコストとスイッチングコストの両方に苦しむスムーズなオンライン学習の問題を調査します。競争比を縛るために、各ラウンドで打つコストが学習者に知られていると仮定し、打つコストと切り換えコストの重み付け合計を単純に最小化する勾配アルゴリズムを調査します。
論文参考訳（メタデータ） (2021-02-13T14:15:55Z)
A new regret analysis for Adam-type algorithms [78.825194932103]
理論的には、オンライン凸最適化に対する後悔の保証は、急速に崩壊する$beta_1to0$スケジュールを必要とする。最適なデータ依存リセット境界を一定の$beta_1$で導出できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-21T19:19:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。