論文の概要: Constant Regret Re-solving Heuristics for Price-based Revenue Management
- arxiv url: http://arxiv.org/abs/2009.02861v2
- Date: Tue, 29 Dec 2020 20:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 03:14:11.753024
- Title: Constant Regret Re-solving Heuristics for Price-based Revenue Management
- Title(参考訳): 物価ベースの収益管理のための定期的レグレト・リゾルディング・ヒューリスティックス
- Authors: Yining Wang and He Wang
- Abstract要約: 最適政策の値と比較して, 自然解決はO(1)$後悔となることを示す。
また、最適ポリシーの値と流体モデルの値の間には$Omega(ln T)$ギャップがあることも証明する。
- 参考スコア(独自算出の注目度): 17.344365325417602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Price-based revenue management is an important problem in operations
management with many practical applications. The problem considers a retailer
who sells a product (or multiple products) over $T$ consecutive time periods
and is subject to constraints on the initial inventory levels. While the
optimal pricing policy could be obtained via dynamic programming, such an
approach is sometimes undesirable because of high computational costs.
Approximate policies, such as the re-solving heuristics, are often applied as
computationally tractable alternatives. In this paper, we show the following
two results. First, we prove that a natural re-solving heuristic attains $O(1)$
regret compared to the value of the optimal policy. This improves the $O(\ln
T)$ regret upper bound established in the prior work of
\cite{jasin2014reoptimization}. Second, we prove that there is an $\Omega(\ln
T)$ gap between the value of the optimal policy and that of the fluid model.
This complements our upper bound result by showing that the fluid is not an
adequate information-relaxed benchmark when analyzing price-based revenue
management algorithms.
- Abstract(参考訳): 価格ベースの収益管理は多くの実践的な応用で運用管理において重要な問題である。
問題は、商品(または複数の製品)を連続してt$の期間にわたって販売し、初期の在庫水準に制約を受ける小売業者を考えることである。
最適価格ポリシーは動的プログラミングによって得ることができるが、高い計算コストのためにそのようなアプローチは望ましくない場合もある。
再解決ヒューリスティックスのような近似ポリシーは、しばしば計算的に抽出可能な代替手段として適用される。
本稿では,以下の2つの結果を示す。
まず, 自然再解法ヒューリスティックは, 最適方針の値と比較して, $o(1)$ regret が得られることを証明した。
これは \cite{jasin2014reoptimization} の以前の研究で確立された $O(\ln T)$ regret上界を改善する。
第二に、最適ポリシーの値と流体モデルの値の間には$\Omega(\ln T)$ギャップがあることが証明される。
これは、価格ベースの収益管理アルゴリズムを分析する際に、流体が適切な情報関連ベンチマークではないことを示すことで、上界の結果を補完する。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Learning with Posterior Sampling for Revenue Management under Time-varying Demand [36.22276574805786]
価格設定項目やサービスによる収益を最大化するための収益管理問題について議論する。
この問題の1つの課題は、需要分布が未知であり、航空会社や小売業のような実際の応用において時間とともに変化することである。
論文 参考訳(メタデータ) (2024-05-08T09:28:26Z) - Demand Balancing in Primal-Dual Optimization for Blind Network Revenue Management [6.72809363581332]
本稿では,従来のネットワーク収益管理問題を未知の非パラメトリック要求で解決する,最適理論的後悔を伴う実用的なアルゴリズムを提案する。
重要な技術的貢献は、いわゆる需要バランスであり、これは資源在庫の制約に対する欠陥の違反を相殺するために、各期間に一次解(すなわち価格)を他の価格と組み合わせるものである。
論文 参考訳(メタデータ) (2024-04-06T01:39:51Z) - Efficient Frameworks for Generalized Low-Rank Matrix Bandit Problems [61.85150061213987]
一般化線形モデル (GLM) フレームワークを用いて, citelu2021low で提案した一般化低ランク行列帯域問題について検討する。
既存のアルゴリズムの計算不可能性と理論的制約を克服するため,まずG-ESTTフレームワークを提案する。
G-ESTT は $tildeO(sqrt(d_1+d_2)3/2Mr3/2T)$ bound of regret を達成でき、G-ESTS は $tildeO を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-14T14:14:19Z) - Estimating Optimal Policy Value in General Linear Contextual Bandits [50.008542459050155]
多くのバンドイット問題において、政策によって達成可能な最大報酬は、前もって不明であることが多い。
我々は,最適政策が学習される前に,サブ線形データ構造における最適政策値を推定する問題を考察する。
V*$で問題依存上界を推定する,より実用的で効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-19T01:09:24Z) - Best of Both Worlds Policy Optimization [33.13041034490332]
本稿では,正則化器,探索ボーナス,学習率を適切に設計することにより,損失が相反する場合には,より好意的なポリログ$(T)=後悔が得られることを示す。
政策最適化のために、ギャップ依存のポリログ$(T)$後悔境界が示されるのはこれが初めてである。
論文 参考訳(メタデータ) (2023-02-18T19:46:11Z) - Learning to Order for Inventory Systems with Lost Sales and Uncertain
Supplies [21.690446677016247]
我々は, 在庫管理システムを, 計画的地平線上でのリードタイム$L$とみなし, 供給は不確実であり, 注文量の関数である。
提案アルゴリズムは,O(L+sqrtT)$が$Lgeqlog(T)$である場合に,そのアルゴリズムのコストと,O(L+sqrtT)$に対する最適ポリシーとの相違(英語版)を生じることを示す。
論文 参考訳(メタデータ) (2022-07-10T22:11:32Z) - Improved Regret Bound and Experience Replay in Regularized Policy
Iteration [22.621710838468097]
無限ホライゾンマルコフ決定過程(mdps)における学習アルゴリズムを関数近似を用いて検討する。
まず、ほぼ同一の仮定の下で、Politexアルゴリズムの後悔解析を$O(T3/4)$から$O(sqrtT)$にシャープできることを示す。
その結果、計算効率の良いアルゴリズムに対して、最初の高い確率の$o(sqrtt)$ regretバウンドが得られる。
論文 参考訳(メタデータ) (2021-02-25T00:55:07Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Efficient Optimistic Exploration in Linear-Quadratic Regulators via
Lagrangian Relaxation [107.06364966905821]
線形2次レギュレータ(LQR)設定における探索・探索ジレンマについて検討した。
有限 MDP に対する楽観的アルゴリズムで用いられる拡張値反復アルゴリズムに着想を得て,Oulq の楽観的最適化を緩和することを提案する。
我々は、少なくとも$Obig(log (1/epsilon)big)$ Riccati方程式を解くことで、$epsilon$-OptimisticControllerを効率的に計算できることを示した。
論文 参考訳(メタデータ) (2020-07-13T16:30:47Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。