Fugu-MT 論文翻訳(概要): From Stream to Pool: Dynamic Pricing Beyond i.i.d. Arrivals

論文の概要: From Stream to Pool: Dynamic Pricing Beyond i.i.d. Arrivals

arxiv url: http://arxiv.org/abs/2310.19220v2
Date: Thu, 6 Jun 2024 04:38:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-08 00:29:50.120922
Title: From Stream to Pool: Dynamic Pricing Beyond i.i.d. Arrivals
Title（参考訳）: ストリームからプールへ:i.i.d. Arrivalsを超える動的価格設定
Authors: Titing Cui, Su Jia, Thomas Lavastida,
Abstract要約: 我々は、独占販売業者と繰り返しやりとりする顧客に対して、textbfpool$を調査する。特に,ディスカウント関数が一定であれば,プールモデルによりストリームモデルが復元される。我々は、非適応的で詳細のない(すなわち、バリュエーションを「知る」)政策を提示し、競争比1/kで達成する。
参考スコア（独自算出の注目度）: 5.632624116225276
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Dynamic pricing models often posit that a $\textbf{stream}$ of customer interactions occur sequentially, where customers' valuations are drawn independently. However, this model is not entirely reflective of the real world, as it overlooks a critical aspect, the law of diminishing marginal utility, which states that a customer's marginal utility from each additional unit declines. This causes the valuation distribution to shift towards the lower end, which is not captured by the stream model. This motivates us to study a pool-based model, where a $\textbf{pool}$ of customers repeatedly interacts with a monopolist seller, each of whose valuation diminishes in the number of purchases made according to a discount function. In particular, when the discount function is constant, our pool model recovers the stream model. We focus on the most fundamental special case, where a customer's valuation becomes zero once a purchase is made. Given $k$ prices, we present a non-adaptive, detail-free (i.e., does not "know" the valuations) policy that achieves a $1/k$ competitive ratio, which is optimal among non-adaptive policies. Furthermore, based on a novel debiasing technique, we propose an adaptive learn-then-earn policy with a $\tilde O(k^{2/3} n^{2/3})$ regret.
Abstract（参考訳）: 動的価格モデルはしばしば、顧客のインタラクションの$\textbf{stream}$が順次発生し、顧客のバリュエーションが独立して引き出されることを仮定する。しかし、このモデルは、限界効用を減らし、各追加単位からの顧客の限界効用が減少するという、重要な側面を見落としているために、現実の世界を完全に反映しているわけではない。これにより、バリュエーションの分布は、ストリームモデルによって捉えられていないローエンドへとシフトする。これはプールベースのモデルを研究する動機となり、$\textbf{pool}$の顧客は、ディスカウント機能によって購入される回数が減少するモノポリスの売り手と繰り返しやりとりする。特に、割引関数が一定であれば、プールモデルによってストリームモデルが復元される。購入が完了すると、顧客の評価がゼロになる、最も基本的な特殊なケースに注目します。 k$の価格が与えられた場合、非適応的かつ詳細のない(すなわち、非適応的政策の中で最適である1/k$の競争比率を達成するような政策を提示する。さらに, 新たなデバイアス化手法を基礎として, $\tilde O(k^{2/3} n^{2/3})$ regret を用いた適応型学習理論を提案する。

関連論文リスト

Poisson-MNL Bandit: Nearly Optimal Dynamic Joint Assortment and Pricing with Decision-Dependent Customer Arrivals [2.023747761104056]
本研究では,販売者が定期会計/運用の間隔で意思決定を更新する動的ジョイント・アソシエーションと価格について検討する。多くの設定では、品揃えと価格は、到着した顧客が何を買うかだけでなく、その期間内に何人の顧客が到着するかにも影響を及ぼす。本稿では、文脈的MNL選択モデルと、提示された品目と価格に依存するポアソン到着モデルとを結合するポアソン-MNLモデルを提案する。
論文参考訳（メタデータ） (2026-02-18T22:30:49Z)
$V_0$: A Generalist Value Model for Any Policy at State Zero [80.7505802128501]
ポリシーメソッドは、アクションの相対的な利点を測定するためにベースラインに依存します。このベースラインは一般的に、政策モデルそのものと同じくらい大きな価値モデル(Critic)によって推定される。未知のプロンプト上での任意のモデルの期待性能を推定できるジェネリスト値モデルを提案する。
論文参考訳（メタデータ） (2026-02-03T14:35:23Z)
Log-Sum-Exponential Estimator for Off-Policy Evaluation and Learning [50.93804891554481]
従来の逆確率スコア推定よりも優れた対数推定演算子(log-sum-exponential (LSE)演算子)に基づく新しい推定器を提案する。我々のLSE推定器は, 重み付き条件下での分散低減とロバスト性を示す。政治以外の学習シナリオでは、LSE推定器と最適ポリシーの間のパフォーマンスギャップである後悔の限界を確立します。
論文参考訳（メタデータ） (2025-06-07T17:37:10Z)
Minimax Optimality in Contextual Dynamic Pricing with General Valuation Models [4.156757591117864]
本稿では,問題に対する仮定を最小化しながら,改善された後悔境界を実現する新しいアルゴリズムを提案する。本手法は, 一般関数空間を考慮し, 動的価格設定によく用いられる線形評価モデルを超えて拡張する。
論文参考訳（メタデータ） (2024-06-24T23:43:56Z)
Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文参考訳（メタデータ） (2024-05-29T01:32:17Z)
Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす本稿では,このドメイン内のモデルについて考察する。-文脈的デュエルバンディット(contextual dueling bandits)と,正の選好ラベルを相手によって反転させることができる対向フィードバック(reversarial feedback)について考察する。本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(RCDB)を提案する。
論文参考訳（メタデータ） (2024-04-16T17:59:55Z)
Dynamic Pricing and Learning with Long-term Reference Effects [16.07344044662994]
本研究では,販売者が提示した過去の価格の基準価格が平均値となる,シンプルで斬新な参照価格メカニズムについて検討する。このメカニズムの下では,モデルパラメータに関係なく,マークダウンポリシがほぼ最適であることを示す。次に、需要モデルパラメータが不明な、より困難な動的価格と学習の問題について検討する。
論文参考訳（メタデータ） (2024-02-19T21:36:54Z)
Pricing with Contextual Elasticity and Heteroscedastic Valuation [23.96777734246062]
我々は、顧客がその特徴と価格に基づいて商品を購入するかどうかを決めるオンラインコンテキスト動的価格問題について検討する。本稿では,機能に基づく価格弾力性の導入により,顧客の期待する需要をモデル化する新たなアプローチを提案する。我々の結果は、文脈的弾力性とヘテロセダスティックな評価の関係に光を当て、効果的で実用的な価格戦略の洞察を与えました。
論文参考訳（メタデータ） (2023-12-26T11:07:37Z)
Differentially Private Reward Estimation with Preference Feedback [15.943664678210146]
嗜好に基づくフィードバックから学ぶことは最近、生成モデルと人間の関心を結びつけるための有望なアプローチとして、かなりの注目を集めている。上記のパイプラインの任意のステップにおける敵攻撃は、人間のラベルのプライベートで機密性の高い情報を明らかにする可能性がある。我々は、各ラベルのプライバシーを保護しつつ、嗜好に基づくフィードバックからの報酬推定の問題に焦点をあてる。
論文参考訳（メタデータ） (2023-10-30T16:58:30Z)
Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文参考訳（メタデータ） (2023-03-28T00:23:23Z)
Personalized Pricing with Invalid Instrumental Variables: Identification, Estimation, and Policy Learning [5.372349090093469]
本研究は,インストゥルメンタル変数アプローチを用いて,内在性の下でのオフラインパーソナライズド価格について検討する。 Invalid iNsTrumental変数を用いたパーソナライズされたプライシングのための新しいポリシー学習手法を提案する。
論文参考訳（メタデータ） (2023-02-24T14:50:47Z)
The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。世界的な最適な政策勾配(NPG)に収束する。 O (1/t) レート勾配でのポリシー。値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文参考訳（メタデータ） (2023-01-16T06:28:00Z)
Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文参考訳（メタデータ） (2022-12-12T21:37:36Z)
Linear Speedup in Personalized Collaborative Learning [69.45124829480106]
フェデレート学習におけるパーソナライゼーションは、モデルのバイアスをトレーディングすることで、モデルの精度を向上させることができる。ユーザの目的の最適化として、パーソナライズされた協調学習問題を定式化する。分散の低減のためにバイアスを最適にトレードオフできる条件について検討する。
論文参考訳（メタデータ） (2021-11-10T22:12:52Z)
Distribution-free Contextual Dynamic Pricing [5.773269033551628]
コンテキスト動的価格設定は、顧客との逐次的なインタラクションに基づいてパーソナライズされた価格を設定することを目的としている。本稿では,未知のランダムノイズを伴う文脈的動的価格を評価モデルで検討する。我々の流通自由価格政策は、コンテキスト関数と市場ノイズの両方を同時に学習する。
論文参考訳（メタデータ） (2021-09-15T14:52:44Z)
Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文参考訳（メタデータ） (2020-02-21T19:20:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。