論文の概要: Learning Optimal Admission Control in Partially Observable Queueing
Networks
- arxiv url: http://arxiv.org/abs/2308.02391v1
- Date: Fri, 4 Aug 2023 15:40:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 12:22:54.459658
- Title: Learning Optimal Admission Control in Partially Observable Queueing
Networks
- Title(参考訳): 部分可観測待ち行列ネットワークにおける最適入場制御の学習
- Authors: Jonatha Anselmi, Bruno Gaujal, Louis-S\'ebastien Rebuffi
- Abstract要約: 本稿では、部分的に観測可能な待ち行列ネットワークにおいて、最適入場制御ポリシーを学習する効率的な強化学習アルゴリズムを提案する。
我々のアルゴリズムは、ネットワーク内のジョブの最大数のみにサブラインナリーに依存していることを後悔している。
- 参考スコア(独自算出の注目度): 4.254099382808599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an efficient reinforcement learning algorithm that learns the
optimal admission control policy in a partially observable queueing network.
Specifically, only the arrival and departure times from the network are
observable, and optimality refers to the average holding/rejection cost in
infinite horizon.
While reinforcement learning in Partially Observable Markov Decision
Processes (POMDP) is prohibitively expensive in general, we show that our
algorithm has a regret that only depends sub-linearly on the maximal number of
jobs in the network, $S$. In particular, in contrast with existing regret
analyses, our regret bound does not depend on the diameter of the underlying
Markov Decision Process (MDP), which in most queueing systems is at least
exponential in $S$.
The novelty of our approach is to leverage Norton's equivalent theorem for
closed product-form queueing networks and an efficient reinforcement learning
algorithm for MDPs with the structure of birth-and-death processes.
- Abstract(参考訳): 本稿では、部分的に観測可能な待ち行列ネットワークにおいて、最適入場制御ポリシーを学習する効率的な強化学習アルゴリズムを提案する。
具体的には、ネットワークからの到着時間と出発時間のみが観測可能であり、最適性は無限地平線の平均保持/削除コストを指す。
部分可観測マルコフ決定過程(pomdp)における強化学習は一般的には高価であるが,本アルゴリズムでは,ネットワーク内のジョブの最大数に従わないことを後悔している。
特に、既存の後悔分析とは対照的に、私たちの後悔の境界は、ほとんどの待ち行列システムにおいて少なくとも$s$で指数関数的であるマルコフ決定プロセス(mdp)の直径に依存しない。
このアプローチの目新しさは,閉積型待ち行列ネットワークに対するnortonの等価定理と,生死過程の構造を持つmdpの効率的な強化学習アルゴリズムを活用することである。
関連論文リスト
- Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes [7.028778922533688]
平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。
平均再帰型MDPのユニークな構造特性を考察し,これを用いてReward-Extended Differential (RED) 強化学習を導入する。
論文 参考訳(メタデータ) (2024-10-14T14:52:23Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Adversarial Network Optimization under Bandit Feedback: Maximizing Utility in Non-Stationary Multi-Hop Networks [35.78834550608041]
古典的なSNOアルゴリズムでは、ネットワーク条件は時間とともに定常である必要がある。
これらの問題に触発され、我々は帯域幅のフィードバックの下でAdversarial Network Optimization (ANO) を検討する。
提案するUMO2アルゴリズムは,ネットワークの安定性を保証し,また,「微妙に変化する」参照ポリシーの実用性に適合する。
論文 参考訳(メタデータ) (2024-08-29T02:18:28Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Provably Efficient Reinforcement Learning for Online Adaptive Influence
Maximization [53.11458949694947]
本稿では,リアルタイムフィードバックに基づいてシードノードを逐次活性化する,コンテンツ依存型オンライン影響問題の適応バージョンについて検討する。
提案アルゴリズムは,最適政策を楽観的に改善しつつ,ネットワークモデルの推定を保守し,適応的にシードを選択する。
論文 参考訳(メタデータ) (2022-06-29T18:17:28Z) - Large-scale Optimization of Partial AUC in a Range of False Positive
Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。
近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。
提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文 参考訳(メタデータ) (2022-03-03T03:46:18Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - RL-QN: A Reinforcement Learning Framework for Optimal Control of
Queueing Systems [8.611328447624677]
モデルベース強化学習(RL)を用いて、待ち行列ネットワークの最適制御ポリシーを学習する。
しかし、従来のRLのアプローチでは、ネットワーク制御問題の非有界状態空間は扱えない。
我々は、状態空間の有限部分集合にモデルベースのRL法を適用するReinforcement Learning for Queueing Networks (RL-QN)と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-14T22:12:27Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - Reinforcement Learning in Factored MDPs: Oracle-Efficient Algorithms and
Tighter Regret Bounds for the Non-Episodic Setting [24.90164851620799]
非等化因子マルコフ決定過程(FMDP)における強化学習の研究
FMDPに対する2つの近似およびオラクル効率アルゴリズムを提案する。
我々のオラクル効率のアルゴリズムは、コンピュータネットワーク管理シミュレーションにおいて、これまで提案されていた近似アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-02-06T15:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。