論文の概要: Blind Network Revenue Management and Bandits with Knapsacks under Limited Switches
- arxiv url: http://arxiv.org/abs/1911.01067v5
- Date: Wed, 17 Sep 2025 04:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 16:12:03.210832
- Title: Blind Network Revenue Management and Bandits with Knapsacks under Limited Switches
- Title(参考訳): ブラインドネットワークの収益管理とKnapsackによる帯域制限
- Authors: David Simchi-Levi, Yunzong Xu, Jinglong Zhao,
- Abstract要約: 本研究では,限られたスイッチが需要学習に伴う資源制約付き動的価格に与える影響について検討する。
提案アルゴリズムは,スイッチ数を大幅に削減しつつ,高い累積報酬性能を維持している。
- 参考スコア(独自算出の注目度): 13.327676224001257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the impact of limited switches on resource-constrained dynamic pricing with demand learning. We focus on the classical price-based blind network revenue management problem and extend our results to the bandits with knapsacks problem. In both settings, a decision maker faces stochastic and distributionally unknown demand, and must allocate finite initial inventory across multiple resources over time. In addition to standard resource constraints, we impose a switching constraint that limits the number of action changes over the time horizon. We establish matching upper and lower bounds on the optimal regret and develop computationally efficient limited-switch algorithms that achieve it. We show that the optimal regret rate is fully characterized by a piecewise-constant function of the switching budget, which further depends on the number of resource constraints. Our results highlight the fundamental role of resource constraints in shaping the statistical complexity of online learning under limited switches. Extensive simulations demonstrate that our algorithms maintain strong cumulative reward performance while significantly reducing the number of switches.
- Abstract(参考訳): 本稿では,限られたスイッチが需要学習に伴う資源制約付き動的価格に与える影響について検討する。
我々は、古典的な価格ベースのブラインドネットワーク収益管理問題に注目し、結果をknapsacks問題による盗賊に拡張する。
どちらの設定でも、意思決定者は確率的かつ分布的に未知の要求に直面し、時間とともに複数のリソースにわたって有限な初期在庫を割り当てなければならない。
標準リソース制約に加えて、時間的地平線上でのアクション変更の数を制限するスイッチング制約を課す。
最適後悔点の上限値と下限値の整合性を確立し,それを実現する計算効率の良い限定スウィッチアルゴリズムを開発した。
また, 最適後悔率は, 資源制約の数に依存する切替予算の一貫した機能により, 完全に特徴づけられることを示した。
本研究は,限られたスイッチ下でのオンライン学習の統計的複雑さの形成における資源制約の基本的な役割を明らかにするものである。
大規模なシミュレーションにより, アルゴリズムは高い累積報酬性能を維持しつつ, スイッチ数を大幅に削減することを示した。
関連論文リスト
- No-Regret Learning Under Adversarial Resource Constraints: A Spending Plan Is All You Need! [56.80767500991973]
アクション選択の前に報酬とコストが観測される$(i)$オンラインリソース割当と、アクション選択後、完全なフィードバックや盗賊フィードバックの下で、リソース制限付きオンライン学習である$(ii)$オンラインリソース割当に焦点を当てた。
報酬とコスト分布が時間とともに任意に変化する場合、これらの設定でサブ線形後悔を達成することは不可能であることが知られている。
我々は、支出計画に従う基準線に対する半線形後悔を実現する一般的な(基本的)二重的手法を設計し、また、支出計画が予算のバランスの取れた配分を保証すると、アルゴリズムの性能が向上する。
論文 参考訳(メタデータ) (2025-06-16T08:42:31Z) - From Restless to Contextual: A Thresholding Bandit Approach to Improve Finite-horizon Performance [4.770896774729555]
オンラインのレスレス・バンディットは、国家の移行と予算の制約を取り入れることで、古典的な文脈的バンディットを拡張している。
我々は、拡張性のある予算付きしきい値付き帯域幅問題として問題を再構築する。
本稿では,オンラインマルチステート設定において,最小限の最小定数後悔を実現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:23:43Z) - Exponentially Weighted Algorithm for Online Network Resource Allocation with Long-Term Constraints [0.6466206145151128]
本稿では,ジョブ転送を伴う通信ネットワークにおける最適資源予約問題について検討する。
本稿では,長期制約を含むランダム化指数重み付け法に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-03T10:12:40Z) - Optimal Algorithms for Online Convex Optimization with Adversarial Constraints [16.99491218081617]
COCOでは、そのラウンドのアクションを選択した後、学習者に凸コスト関数と凸制約関数を明らかにする。
我々は、オンラインポリシーが、制限的な仮定なしで、同時に$O(sqrtT)$ regretと$tildeO(sqrtT)$ CCVを達成できることを示します。
論文 参考訳(メタデータ) (2023-10-29T09:55:41Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z) - Regularized Online Allocation Problems: Fairness and Beyond [7.433931244705934]
本稿では, 総資源消費に作用する非線形正規化器を含む変種である, 語彙化オンライン割当問題を紹介する。
この問題では、要求は時間とともに繰り返し届き、各要求に対して、意思決定者は報酬を生成しリソースを消費するアクションを取る必要があります。
目的は、資源制約を受ける加算可分な報酬と非分離可正則化器の値とを同時に最大化することである。
論文 参考訳(メタデータ) (2020-07-01T14:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。