Fugu-MT 論文翻訳(概要): From Stream to Pool: Dynamic Pricing Beyond i.i.d. Arrivals

論文の概要: From Stream to Pool: Dynamic Pricing Beyond i.i.d. Arrivals

arxiv url: http://arxiv.org/abs/2310.19220v1
Date: Mon, 30 Oct 2023 01:53:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 13:31:46.500175
Title: From Stream to Pool: Dynamic Pricing Beyond i.i.d. Arrivals
Title（参考訳）: ストリームからプールへ:i.i.d. Arrivalsを超える動的価格設定
Authors: Titing Cui, Su Jia, Thomas Lavastida
Abstract要約: 適応的でないポリシーを効率的に計算するミニマックス近位アルゴリズムを提案する。また,新しいエンフェデビアス法に基づく適応型エンフェレーンアーン政策を提案する。
参考スコア（独自算出の注目度）: 6.3305050339413675
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The dynamic pricing problem has been extensively studied under the \textbf{stream} model: A stream of customers arrives sequentially, each with an independently and identically distributed valuation. However, this formulation is not entirely reflective of the real world. In many scenarios, high-valuation customers tend to make purchases earlier and leave the market, leading to a \emph{shift} in the valuation distribution. Thus motivated, we consider a model where a \textbf{pool} of $n$ non-strategic unit-demand customers interact repeatedly with the seller. Each customer monitors the price intermittently according to an independent Poisson process and makes a purchase if the observed price is lower than her \emph{private} valuation, whereupon she leaves the market permanently. We present a minimax \emph{optimal} algorithm that efficiently computes a non-adaptive policy which guarantees a $1/k$ fraction of the optimal revenue, given any set of $k$ prices. Moreover, we present an adaptive \emph{learn-then-earn} policy based on a novel \emph{debiasing} approach, and prove an $\tilde O(kn^{3/4})$ regret bound. We further improve the bound to $\tilde O(k^{3/4} n^{3/4})$ using martingale concentration inequalities.
Abstract（参考訳）: 動的価格問題は、textbf{stream}モデルの下で広く研究されている: 顧客のストリームが順次到着し、それぞれが独立して同一に分散されたバリュエーションを持つ。しかし、この定式化は現実の世界を完全に反映するものではない。多くのシナリオでは、高い評価の顧客は早期に購入を行い、市場を去る傾向があり、バリュエーションの分布において「emph{shift}」となる。そこで本研究では,非ストラテジックな単価単価の顧客を売り手と繰り返しやりとりするモデルについて考察する。各顧客は、独立したPoissonプロセスに従って断続的に価格を監視し、観察された価格が彼女の‘emph{private’評価よりも低い場合、市場を永久に去る。我々は、最適な収益の1/k$を保証した非適応ポリシーを効率良く計算するminimax \emph{optimal}アルゴリズムを提案する。さらに,新規な \emph{debiasing} アプローチに基づく適応型 \emph{learn-then-earn} ポリシーを示し,$\tilde o(kn^{3/4})$ regret bound を証明する。さらに、マルティンゲール濃度の不等式を用いて、$\tilde O(k^{3/4} n^{3/4})$へのバウンドをさらに改善する。

関連論文リスト

Poisson-MNL Bandit: Nearly Optimal Dynamic Joint Assortment and Pricing with Decision-Dependent Customer Arrivals [2.023747761104056]
本研究では,販売者が定期会計/運用の間隔で意思決定を更新する動的ジョイント・アソシエーションと価格について検討する。多くの設定では、品揃えと価格は、到着した顧客が何を買うかだけでなく、その期間内に何人の顧客が到着するかにも影響を及ぼす。本稿では、文脈的MNL選択モデルと、提示された品目と価格に依存するポアソン到着モデルとを結合するポアソン-MNLモデルを提案する。
論文参考訳（メタデータ） (2026-02-18T22:30:49Z)
$V_0$: A Generalist Value Model for Any Policy at State Zero [80.7505802128501]
ポリシーメソッドは、アクションの相対的な利点を測定するためにベースラインに依存します。このベースラインは一般的に、政策モデルそのものと同じくらい大きな価値モデル(Critic)によって推定される。未知のプロンプト上での任意のモデルの期待性能を推定できるジェネリスト値モデルを提案する。
論文参考訳（メタデータ） (2026-02-03T14:35:23Z)
Log-Sum-Exponential Estimator for Off-Policy Evaluation and Learning [50.93804891554481]
従来の逆確率スコア推定よりも優れた対数推定演算子(log-sum-exponential (LSE)演算子)に基づく新しい推定器を提案する。我々のLSE推定器は, 重み付き条件下での分散低減とロバスト性を示す。政治以外の学習シナリオでは、LSE推定器と最適ポリシーの間のパフォーマンスギャップである後悔の限界を確立します。
論文参考訳（メタデータ） (2025-06-07T17:37:10Z)
Minimax Optimality in Contextual Dynamic Pricing with General Valuation Models [4.156757591117864]
本稿では,問題に対する仮定を最小化しながら,改善された後悔境界を実現する新しいアルゴリズムを提案する。本手法は, 一般関数空間を考慮し, 動的価格設定によく用いられる線形評価モデルを超えて拡張する。
論文参考訳（メタデータ） (2024-06-24T23:43:56Z)
Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文参考訳（メタデータ） (2024-05-29T01:32:17Z)
Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす本稿では,このドメイン内のモデルについて考察する。-文脈的デュエルバンディット(contextual dueling bandits)と,正の選好ラベルを相手によって反転させることができる対向フィードバック(reversarial feedback)について考察する。本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(RCDB)を提案する。
論文参考訳（メタデータ） (2024-04-16T17:59:55Z)
Dynamic Pricing and Learning with Long-term Reference Effects [16.07344044662994]
本研究では,販売者が提示した過去の価格の基準価格が平均値となる,シンプルで斬新な参照価格メカニズムについて検討する。このメカニズムの下では,モデルパラメータに関係なく,マークダウンポリシがほぼ最適であることを示す。次に、需要モデルパラメータが不明な、より困難な動的価格と学習の問題について検討する。
論文参考訳（メタデータ） (2024-02-19T21:36:54Z)
Pricing with Contextual Elasticity and Heteroscedastic Valuation [23.96777734246062]
我々は、顧客がその特徴と価格に基づいて商品を購入するかどうかを決めるオンラインコンテキスト動的価格問題について検討する。本稿では,機能に基づく価格弾力性の導入により,顧客の期待する需要をモデル化する新たなアプローチを提案する。我々の結果は、文脈的弾力性とヘテロセダスティックな評価の関係に光を当て、効果的で実用的な価格戦略の洞察を与えました。
論文参考訳（メタデータ） (2023-12-26T11:07:37Z)
Differentially Private Reward Estimation with Preference Feedback [15.943664678210146]
嗜好に基づくフィードバックから学ぶことは最近、生成モデルと人間の関心を結びつけるための有望なアプローチとして、かなりの注目を集めている。上記のパイプラインの任意のステップにおける敵攻撃は、人間のラベルのプライベートで機密性の高い情報を明らかにする可能性がある。我々は、各ラベルのプライバシーを保護しつつ、嗜好に基づくフィードバックからの報酬推定の問題に焦点をあてる。
論文参考訳（メタデータ） (2023-10-30T16:58:30Z)
Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文参考訳（メタデータ） (2023-03-28T00:23:23Z)
Personalized Pricing with Invalid Instrumental Variables: Identification, Estimation, and Policy Learning [5.372349090093469]
本研究は,インストゥルメンタル変数アプローチを用いて,内在性の下でのオフラインパーソナライズド価格について検討する。 Invalid iNsTrumental変数を用いたパーソナライズされたプライシングのための新しいポリシー学習手法を提案する。
論文参考訳（メタデータ） (2023-02-24T14:50:47Z)
The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。世界的な最適な政策勾配(NPG)に収束する。 O (1/t) レート勾配でのポリシー。値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文参考訳（メタデータ） (2023-01-16T06:28:00Z)
Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文参考訳（メタデータ） (2022-12-12T21:37:36Z)
Linear Speedup in Personalized Collaborative Learning [69.45124829480106]
フェデレート学習におけるパーソナライゼーションは、モデルのバイアスをトレーディングすることで、モデルの精度を向上させることができる。ユーザの目的の最適化として、パーソナライズされた協調学習問題を定式化する。分散の低減のためにバイアスを最適にトレードオフできる条件について検討する。
論文参考訳（メタデータ） (2021-11-10T22:12:52Z)
Distribution-free Contextual Dynamic Pricing [5.773269033551628]
コンテキスト動的価格設定は、顧客との逐次的なインタラクションに基づいてパーソナライズされた価格を設定することを目的としている。本稿では,未知のランダムノイズを伴う文脈的動的価格を評価モデルで検討する。我々の流通自由価格政策は、コンテキスト関数と市場ノイズの両方を同時に学習する。
論文参考訳（メタデータ） (2021-09-15T14:52:44Z)
Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文参考訳（メタデータ） (2020-02-21T19:20:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。