Fugu-MT 論文翻訳(概要): Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model

論文の概要: Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model

arxiv url: http://arxiv.org/abs/2303.15652v2
Date: Sat, 14 Oct 2023 00:53:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 05:51:54.654559
Title: Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model
Title（参考訳）: 構造化動的価格:グローバル収縮モデルにおける最適後悔
Authors: Rashmi Ranjan Bhuyan, Adel Javanmard, Sungchul Kim, Gourab Mukherjee, Ryan A. Rossi, Tong Yu, Handong Zhao
Abstract要約: 消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
参考スコア（独自算出の注目度）: 50.06663781566795
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider dynamic pricing strategies in a streamed longitudinal data set-up where the objective is to maximize, over time, the cumulative profit across a large number of customer segments. We consider a dynamic model with the consumers' preferences as well as price sensitivity varying over time. Building on the well-known finding that consumers sharing similar characteristics act in similar ways, we consider a global shrinkage structure, which assumes that the consumers' preferences across the different segments can be well approximated by a spatial autoregressive (SAR) model. In such a streamed longitudinal set-up, we measure the performance of a dynamic pricing policy via regret, which is the expected revenue loss compared to a clairvoyant that knows the sequence of model parameters in advance. We propose a pricing policy based on penalized stochastic gradient descent (PSGD) and explicitly characterize its regret as functions of time, the temporal variability in the model parameters as well as the strength of the auto-correlation network structure spanning the varied customer segments. Our regret analysis results not only demonstrate asymptotic optimality of the proposed policy but also show that for policy planning it is essential to incorporate available structural information as policies based on unshrunken models are highly sub-optimal in the aforementioned set-up. We conduct simulation experiments across a wide range of regimes as well as real-world networks based studies and report encouraging performance for our proposed method.
Abstract（参考訳）: 我々は,多数の顧客セグメントにまたがる累積利益を最大化することが目的のストリーム縦型データ集合における動的価格戦略を検討する。消費者の好みや価格の感度が時間とともに変化する動的モデルを考える。類似した特性を共有する消費者が同様の方法で行動するというよく知られた発見に基づき、異なるセグメントをまたいだ消費者の嗜好を空間的自己回帰(sar)モデルによってよく近似できると仮定するグローバルな収縮構造を考える。このようなストリーム型縦型設定では,モデルパラメータのシーケンスを事前に知っている透視型と比較して,予測した収益損失を後悔して,動的価格政策のパフォーマンスを計測する。本稿では,ペナルティ化された確率的勾配降下(psgd)に基づく価格政策を提案し,その後悔を時間関数,モデルパラメータの時間変動性,および顧客セグメントにまたがる自己相関ネットワーク構造の強度として明確に特徴付ける。提案した政策の漸近的最適性を示すだけでなく,未解決モデルに基づく政策として利用可能な構造情報を組み込むことが,上記の設定において極めて最適であることを示す。提案手法を応用したシミュレーション実験と実世界ネットワークを用いた実験を行い,提案手法の性能向上を報告した。

関連論文リスト

$V_0$: A Generalist Value Model for Any Policy at State Zero [80.7505802128501]
ポリシーメソッドは、アクションの相対的な利点を測定するためにベースラインに依存します。このベースラインは一般的に、政策モデルそのものと同じくらい大きな価値モデル(Critic)によって推定される。未知のプロンプト上での任意のモデルの期待性能を推定できるジェネリスト値モデルを提案する。
論文参考訳（メタデータ） (2026-02-03T14:35:23Z)
Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。 Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-12-25T06:31:11Z)
Guardrailed Elasticity Pricing: A Churn-Aware Forecasting Playbook for Subscription Strategy [0.0]
本稿では,サブスクリプション価格を動的に保護された意思決定システムとして運用するマーケティング分析フレームワークを提案する。季節ごとの時系列モデルをツリーベースの学習者とブレンドし、モンテカルロシナリオテストを実行してリスクエンベロープをマップし、制約付き最適化を解決する。このフレームワークは,フラットな価格からダイナミックな価格への移行時期,CLVやMRRターゲットとの価格調整方法,倫理的ガードレールの組み込み方法など,戦略プレイブックとして機能する。
論文参考訳（メタデータ） (2025-12-24T04:25:31Z)
Reinforcement Learning in Queue-Reactive Models: Application to Optimal Execution [0.35932002706017546]
メタオーダーの最適実行における強化学習の利用について検討する。目的は、実装不足と市場への影響を最小限に抑えながら、段階的に大規模な注文を実行することである。我々はキュー・リフレクティブ・モデルを用いて現実的でトラクタブルなリミットオーダーブックシミュレーションを生成する。
論文参考訳（メタデータ） (2025-11-19T09:26:23Z)
Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-02T14:50:25Z)
Transfer Learning for Nonparametric Contextual Dynamic Pricing [17.420508136662257]
動的価格戦略は、市場条件や顧客特性に基づいて価格を調整することで、企業が収益を最大化する上で不可欠である。この制限を克服するための有望なアプローチの1つは、関連する製品や市場からの情報を活用して、焦点となる価格決定を知らせることである。本稿では,ソースドメインからの事前収集データを効果的に活用し,対象ドメインの価格決定を効率化する,新しいTLDPアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-31T01:05:04Z)
Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文参考訳（メタデータ） (2024-11-30T10:56:30Z)
A Tale of Two Cities: Pessimism and Opportunism in Offline Dynamic Pricing [20.06425698412548]
本稿では,データカバレッジを前提としないオフライン動的価格について検討する。我々は、関連する価格が観測されていない需要パラメータに限定した部分的識別を確立する。提案した部分的識別枠組みに悲観的・機会論的戦略を取り入れて,推定方針を導出する。
論文参考訳（メタデータ） (2024-11-12T19:09:41Z)
COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。 $textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文参考訳（メタデータ） (2023-10-11T06:10:07Z)
Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文参考訳（メタデータ） (2023-07-31T13:02:36Z)
Choice Models and Permutation Invariance: Demand Estimation in Differentiated Products Markets [5.8429701619765755]
ニューラルネットのような非パラメトリック推定器は、選択関数を簡単に近似できることを示す。提案する関数は、完全にデータ駆動方式で、消費者の振る舞いを柔軟に捉えることができる。我々の経験的分析により、推定器は現実的かつ同等の自己およびクロスプライス弾性を生成することが確認された。
論文参考訳（メタデータ） (2023-07-13T23:24:05Z)
Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文参考訳（メタデータ） (2023-06-07T13:58:45Z)
Personalized Pricing with Invalid Instrumental Variables: Identification, Estimation, and Policy Learning [5.372349090093469]
本研究は,インストゥルメンタル変数アプローチを用いて,内在性の下でのオフラインパーソナライズド価格について検討する。 Invalid iNsTrumental変数を用いたパーソナライズされたプライシングのための新しいポリシー学習手法を提案する。
論文参考訳（メタデータ） (2023-02-24T14:50:47Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
On the estimation of discrete choice models to capture irrational customer behaviors [4.683806391173103]
我々は、部分的にランク付けされた好みを使って、トランザクションデータから合理的で不合理な顧客タイプを効率的にモデル化する方法を示す。提案手法の予測精度を評価する実験を幅広く行った。
論文参考訳（メタデータ） (2021-09-08T19:19:51Z)
Autoregressive Dynamics Models for Offline Policy Evaluation and Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文参考訳（メタデータ） (2021-04-28T16:48:44Z)
Self-adapting Robustness in Demand Learning [1.949912057689623]
本研究では,需要モデルあいまいさの存在下で,有限期間にわたる動的価格付けについて検討する。データから真のモデルパラメータを学習するARL(Adaptively-robust-learning)価格ポリシを開発する。我々は,ARLの自己適応的あいまいさセットの挙動を特徴付け,収益損失の規模と顧客到着パターンとの関係を強調する後悔の限界を導出する。
論文参考訳（メタデータ） (2020-11-21T01:15:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。