論文の概要: The Transient Cost of Learning in Queueing Systems
- arxiv url: http://arxiv.org/abs/2308.07817v3
- Date: Mon, 07 Apr 2025 14:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:05:33.654924
- Title: The Transient Cost of Learning in Queueing Systems
- Title(参考訳): 待ち行列システムにおける学習の過渡的コスト
- Authors: Daniel Freund, Thodoris Lykouris, Wentao Weng,
- Abstract要約: キューシステムは、通信ネットワーク、医療、サービスシステムなどにおけるユースケースを備えた、広く適用可能なモデルです。
本稿では、パラメータの不確実性に起因する平均待ち時間長の最大増加を定量化するために、キューにおける学習の過渡コスト(TCLQ)を提案する。
そこで本研究では,Lyapunov と Bandit 分析を橋渡しし,幅広いアルゴリズムの保証を提供し,独立性のある TCLQ の統一解析フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.257386020315728
- License:
- Abstract: Queueing systems are widely applicable stochastic models with use cases in communication networks, healthcare, service systems, etc. Although their optimal control has been extensively studied, most existing approaches assume perfect knowledge of the system parameters. This assumption rarely holds in practice where there is parameter uncertainty, thus motivating a recent line of work on bandit learning for queueing systems. This nascent stream of research focuses on the asymptotic performance of the proposed algorithms but does not provide insight on the transient performance in the early stages of the learning process. In this paper, we propose the Transient Cost of Learning in Queueing (TCLQ), a new metric that quantifies the maximum increase in time-averaged queue length caused by parameter uncertainty. We characterize the TCLQ of a single-queue multi-server system, and then extend these results to multi-queue multi-server systems and networks of queues. In establishing our results, we propose a unified analysis framework for TCLQ that bridges Lyapunov and bandit analysis, provides guarantees for a wide range of algorithms, and could be of independent interest.
- Abstract(参考訳): キューシステムは、通信ネットワーク、医療、サービスシステムなどにおけるユースケースを備えた、広く適用可能な確率モデルである。
最適制御は広く研究されているが、既存のほとんどの手法はシステムパラメータの完全な知識を前提としている。
この仮定は、パラメータの不確実性が存在する実例ではめったに成立しないため、待ち行列システムの帯域学習に関する最近の研究を動機付けている。
この初期の研究の流れは,提案アルゴリズムの漸近的性能に焦点が当てられているが,学習過程の初期段階における過渡的性能についての洞察は得られていない。
本稿では、パラメータの不確実性に起因する平均待ち時間長の最大増加を定量化する新しい指標であるTCLQ(Transient Cost of Learning in Queueing)を提案する。
我々は,TCLQを単一キューマルチサーバシステムの特徴付け,その結果をマルチキューマルチサーバシステムやキューのネットワークに拡張する。
そこで本研究では,Lyapunov と Bandit 分析を橋渡しし,幅広いアルゴリズムの保証を提供し,独立性のある TCLQ の統一解析フレームワークを提案する。
関連論文リスト
- Stochastic Analysis of Entanglement-assisted Quantum Communication Channels [2.1786693199184346]
本稿では,その技術的約束と最近の実験的成功から着想を得た,量子通信ネットワークのキューモデルを提案する。
モデルは、プライマリキューと、ベルペアの生成と保存を行うサービスキューで構成される。
本研究では,このマルチスケール待ち行列システムの振る舞いを平均化原理を用いて検討する。
論文 参考訳(メタデータ) (2024-12-20T18:59:58Z) - Learning payoffs while routing in skill-based queues [0.4077787659104315]
我々は,全支払パラメータを適応的に学習し,全支払パラメータを最大化する機械学習アルゴリズムを構築した。
このアルゴリズムは,残差の下限を導出することにより,対数項に最適であることを示す。
論文 参考訳(メタデータ) (2024-12-13T14:33:50Z) - Adversarial Network Optimization under Bandit Feedback: Maximizing Utility in Non-Stationary Multi-Hop Networks [35.78834550608041]
古典的なSNOアルゴリズムでは、ネットワーク条件は時間とともに定常である必要がある。
これらの問題に触発され、我々は帯域幅のフィードバックの下でAdversarial Network Optimization (ANO) を検討する。
提案するUMO2アルゴリズムは,ネットワークの安定性を保証し,また,「微妙に変化する」参照ポリシーの実用性に適合する。
論文 参考訳(メタデータ) (2024-08-29T02:18:28Z) - SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。
過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。
提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文 参考訳(メタデータ) (2024-08-15T17:50:07Z) - Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms [65.268245109828]
我々はカーンズのSQオラクルとヴァリアントの弱い評価オラクルからインスピレーションを得ます。
評価クエリから学習するための非条件の下限を出力する,広範かつ直感的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T18:23:21Z) - Learning Optimal Admission Control in Partially Observable Queueing
Networks [4.254099382808599]
本稿では、部分的に観測可能な待ち行列ネットワークにおいて、最適入場制御ポリシーを学習する効率的な強化学習アルゴリズムを提案する。
我々のアルゴリズムは、ネットワーク内のジョブの最大数のみにサブラインナリーに依存していることを後悔している。
論文 参考訳(メタデータ) (2023-08-04T15:40:23Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - Sequential Search with Off-Policy Reinforcement Learning [48.88165680363482]
本稿では,RNN学習フレームワークとアテンションモデルからなる,スケーラブルなハイブリッド学習モデルを提案する。
新たな最適化のステップとして、1つのRNNパスに複数の短いユーザシーケンスをトレーニングバッチ内に収める。
また、マルチセッションパーソナライズされた検索ランキングにおける非政治強化学習の利用についても検討する。
論文 参考訳(メタデータ) (2022-02-01T06:52:40Z) - Scheduling Servers with Stochastic Bilinear Rewards [7.519872646378837]
システム最適化問題は、マルチクラス、マルチサーバキューシステムスケジューリングで発生する。
本稿では,報酬の限界コストを付加した重み付き比例フェアアロケーション基準に基づくスケジューリングアルゴリズムを提案する。
我々のアルゴリズムは,時間的地平線に関して,サブ線形後悔とサブ線形平均保持コスト(および待ち時間境界)を考慮し,待ち行列システムの安定性を保証する。
論文 参考訳(メタデータ) (2021-12-13T00:37:20Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。