論文の概要: Bi-Level Online Provisioning and Scheduling with Switching Costs and Cross-Level Constraints
- arxiv url: http://arxiv.org/abs/2601.18936v1
- Date: Mon, 26 Jan 2026 20:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.055444
- Title: Bi-Level Online Provisioning and Scheduling with Switching Costs and Cross-Level Constraints
- Title(参考訳): スイッチングコストとクロスレベル制約を考慮した双方向オンラインプロビジョニングとスケジューリング
- Authors: Jialei Liu, C. Emre Koksal, Ming Shi,
- Abstract要約: 本稿では,ネットワークリソース割り当てを動機とした,双方向のオンラインプロビジョニングとスケジューリング問題について検討する。
我々は,上層オンライン凸最適化問題と下層制約マルコフ決定プロセスを用いて,この2段階の相互作用をモデル化する。
- 参考スコア(独自算出の注目度): 1.639795325203038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a bi-level online provisioning and scheduling problem motivated by network resource allocation, where provisioning decisions are made at a slow time scale while queue-/state-dependent scheduling is performed at a fast time scale. We model this two-time-scale interaction using an upper-level online convex optimization (OCO) problem and a lower-level constrained Markov decision process (CMDP). Existing OCO typically assumes stateless decisions and thus cannot capture MDP network dynamics such as queue evolution. Meanwhile, CMDP algorithms typically assume a fixed constraint threshold, whereas in provisioning-and-scheduling systems, the threshold varies with online budget decisions. To address these gaps, we study bi-level OCO-CMDP learning under switching costs (budget reprovisioning/system reconfiguration) and cross-level constraints that couple budgets to scheduling decisions. Our new algorithm solves this learning problem via several non-trivial developments, including a carefully designed dual feedback that returns the budget multiplier as sensitivity information for the upper-level update and a lower level that solves a budget-adaptive safe exploration problem via an extended occupancy-measure linear program. We establish near-optimal regret and high-probability satisfaction of the cross-level constraints.
- Abstract(参考訳): 本稿では,ネットワークリソース割り当てを動機とした双方向のオンラインプロビジョニングとスケジューリングの問題について検討し,スケジュール決定を遅い時間スケールで行うとともに,待ち行列/状態依存スケジューリングを高速な時間スケールで行う。
我々は、上位レベルのオンライン凸最適化(OCO)問題と下位レベルの制約付きマルコフ決定プロセス(CMDP)を用いて、この2段階の相互作用をモデル化する。
既存のOCOは通常、ステートレスな決定を前提としており、キューの進化のようなMDPネットワークのダイナミクスをキャプチャすることはできない。
一方、CMDPアルゴリズムは通常一定の制約しきい値を仮定するが、プロビジョニング・アンド・スケジューリングシステムでは、オンラインの予算決定によってしきい値が異なる。
これらのギャップに対処するため,両レベルのOCO-CMDP学習を切り替えコスト(予算再編成/システム再構成)と,予算とスケジュール決定を結合するクロスレベル制約の下で研究する。
提案アルゴリズムは,高次更新に対する感度情報として予算乗算器を正確に設計した双対フィードバックと,拡張占有度線形プログラムによる予算適応型安全な探索問題を解決する低次フィードバックを含む,いくつかの非自明な開発を通じて,この学習問題を解決する。
我々は,クロスレベルの制約に対して,ほぼ最適の後悔と高い確率の満足度を確立する。
関連論文リスト
- Cost Minimization for Space-Air-Ground Integrated Multi-Access Edge Computing Systems [60.586531406445744]
宇宙空間統合多高度エッジコンピューティング(SAGIN-MEC)は、急速に発展する低高度経済に有望なソリューションを提供する。
本稿では、ユーザデバイス(UD)、無人航空機(UAV)、衛星間の協調を可能にするSAGIN-MECアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-10-24T15:03:07Z) - No-Regret Learning Under Adversarial Resource Constraints: A Spending Plan Is All You Need! [56.80767500991973]
アクション選択の前に報酬とコストが観測される$(i)$オンラインリソース割当と、アクション選択後、完全なフィードバックや盗賊フィードバックの下で、リソース制限付きオンライン学習である$(ii)$オンラインリソース割当に焦点を当てた。
報酬とコスト分布が時間とともに任意に変化する場合、これらの設定でサブ線形後悔を達成することは不可能であることが知られている。
我々は、支出計画に従う基準線に対する半線形後悔を実現する一般的な(基本的)二重的手法を設計し、また、支出計画が予算のバランスの取れた配分を保証すると、アルゴリズムの性能が向上する。
論文 参考訳(メタデータ) (2025-06-16T08:42:31Z) - Beamforming and Resource Allocation for Delay Minimization in RIS-Assisted OFDM Systems [38.71413228444903]
本稿では、ダウンリンク再構成可能なインテリジェントサーフェス(RIS)支援OFDMシステムにおけるビームフォーミングと資源配分の問題について検討する。
混合作用空間を効果的に処理し, 状態空間次元を低減するために, ハイブリッド深部強化学習(DRL)手法を提案する。
提案アルゴリズムは, 平均遅延を著しく低減し, 資源配分効率を向上し, システムの堅牢性と公平性を向上する。
論文 参考訳(メタデータ) (2025-06-04T05:33:33Z) - Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。
深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文 参考訳(メタデータ) (2024-12-21T10:18:55Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Joint Service Caching, Communication and Computing Resource Allocation in Collaborative MEC Systems: A DRL-based Two-timescale Approach [15.16859210403316]
端末の厳格なQuality of Service(QoS)要件を満たすため、Multi Access Edge Computing(MEC)システムに課題が課されている。
エッジサーバ間のリソース共有を容易にする協調的なフレームワークを提案する。
提案アルゴリズムは,平均スイッチングおよびキャッシュコストにおいて,ベースラインアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-19T00:27:49Z) - Learning-Assisted Algorithm Unrolling for Online Optimization with
Budget Constraints [27.84415856657607]
我々はLAAU(Learning-Assisted Algorithm Unrolling)と呼ばれる新しい機械学習支援アンローリング手法を提案する。
バックプロパゲーションによる効率的なトレーニングには、時間とともに決定パイプラインの勾配を導出します。
また、トレーニングデータがオフラインで利用可能で、オンラインで収集できる場合の2つのケースの平均的なコスト境界も提供します。
論文 参考訳(メタデータ) (2022-12-03T20:56:29Z) - Hierarchical Constrained Stochastic Shortest Path Planning via Cost
Budget Allocation [16.150627252426936]
本稿では,これら2つの重要な要件を満たす階層的制約付き最短経路問題(HC-SSP)を提案する。
結果として生じる問題は非常に複雑であり、最適な解を見つけるのが難しくなる。
提案手法は,提案手法を高速かつ漸進的に更新するために,ブランチ・アンド・バウンド・スキームに基づく低レベルの計画問題に対して,コスト予算を反復的に割り当てるアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-11T01:25:38Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。