論文の概要: On the Robustness of Age for Learning-Based Wireless Scheduling in Unknown Environments
- arxiv url: http://arxiv.org/abs/2601.05956v2
- Date: Mon, 12 Jan 2026 15:34:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 15:02:56.584629
- Title: On the Robustness of Age for Learning-Based Wireless Scheduling in Unknown Environments
- Title(参考訳): 未知環境における学習型無線スケジューリングにおける年齢のロバスト性について
- Authors: Juaren Steiger, Bin Li,
- Abstract要約: 仮想キュー長の代わりにライン年齢を用いた学習に基づくスケジューリングポリシーを提案する。
本ポリシーは,ネットワーク条件下での最先端性能に適合することを示す。
- 参考スコア(独自算出の注目度): 6.733992857924569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The constrained combinatorial multi-armed bandit model has been widely employed to solve problems in wireless networking and related areas, including the problem of wireless scheduling for throughput optimization under unknown channel conditions. Most work in this area uses an algorithm design strategy that combines a bandit learning algorithm with the virtual queue technique to track the throughput constraint violation. These algorithms seek to minimize the virtual queue length in their algorithm design. However, in networks where channel conditions change abruptly, the resulting constraints may become infeasible, leading to unbounded growth in virtual queue lengths. In this paper, we make the key observation that the dynamics of the head-of-line age, i.e. the age of the oldest packet in the virtual queue, make it more robust when used in algorithm design compared to the virtual queue length. We therefore design a learning-based scheduling policy that uses the head-of-line age in place of the virtual queue length. We show that our policy matches state-of-the-art performance under i.i.d. network conditions. Crucially, we also show that the system remains stable even under abrupt changes in channel conditions and can rapidly recover from periods of constraint infeasibility.
- Abstract(参考訳): 制約付き組合せ多重武装バンディットモデルは、未知のチャネル条件下でのスループット最適化のための無線スケジューリングの問題を含む、無線ネットワークおよび関連する領域の問題を解決するために広く用いられている。
この領域のほとんどの作業では、スループット制約違反を追跡するために、ランディット学習アルゴリズムと仮想キュー技術を組み合わせたアルゴリズム設計戦略を採用している。
これらのアルゴリズムは,アルゴリズム設計における仮想キュー長を最小化する。
しかし、チャネル条件が突然変化するネットワークでは、結果として生じる制約が実現不可能になり、仮想キューの長さが無制限に増加する。
本稿では,仮想キューにおける最年長パケットの年齢など,見出し年齢のダイナミクスが,仮想キュー長と比較してアルゴリズム設計で使用する場合,より堅牢であることを示す。
そこで我々は,仮想キュー長の代わりにライン年齢を用いた学習ベースのスケジューリングポリシーを設計する。
本ポリシーは,ネットワーク条件下での最先端性能に適合することを示す。
また,チャネル条件の急激な変化の下でも安定し,制約不能の期間から迅速に回復できることを示す。
関連論文リスト
- Adversarial Network Optimization under Bandit Feedback: Maximizing Utility in Non-Stationary Multi-Hop Networks [35.78834550608041]
古典的なSNOアルゴリズムでは、ネットワーク条件は時間とともに定常である必要がある。
これらの問題に触発され、我々は帯域幅のフィードバックの下でAdversarial Network Optimization (ANO) を検討する。
提案するUMO2アルゴリズムは,ネットワークの安定性を保証し,また,「微妙に変化する」参照ポリシーの実用性に適合する。
論文 参考訳(メタデータ) (2024-08-29T02:18:28Z) - Interpretable Option Discovery using Deep Q-Learning and Variational
Autoencoders [9.432068833600884]
DVQNアルゴリズムは、オプションベースの強化学習における開始条件と終了条件を特定するための有望なアプローチである。
実験により、DVQNアルゴリズムは自動開始と終了で、Rainbowに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-10-03T21:08:39Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - Simultaneously Achieving Sublinear Regret and Constraint Violations for
Online Convex Optimization with Time-varying Constraints [26.473560927031176]
我々は,オンライン凸最適化(OCO)問題に対して,長期的制約と時間的制約を伴う新しい仮想キューベースのオンラインアルゴリズムを開発した。
本アルゴリズムは,サブ線形動的後悔と制約違反を同時に実現した最初のパラメータフリーアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-15T12:23:31Z) - Online estimation and control with optimal pathlength regret [52.28457815067461]
オンライン学習アルゴリズムを設計する際の自然なゴールは、入力シーケンスの時間的変動の観点から、アルゴリズムの後悔を束縛することである。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データ依存の「病的」後悔境界が最近取得されている。
論文 参考訳(メタデータ) (2021-10-24T22:43:15Z) - An Online Learning Approach to Optimizing Time-Varying Costs of AoI [26.661352924641285]
通信ネットワーク上でのソースのタイムリーな監視を必要とするシステムについて検討する。
単一のソース監視問題に対して、後見の最良の固定ポリシーと比較して、サブ線形後悔を実現するアルゴリズムを設計する。
複数ソーススケジューリング問題に対して、Follow-the-Perturbed-Whittle-Leaderと呼ばれる新しいオンライン学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-05-27T18:10:56Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Learning the Linear Quadratic Regulator from Nonlinear Observations [135.66883119468707]
我々は、LQR with Rich Observations(RichLQR)と呼ばれる連続制御のための新しい問題設定を導入する。
本設定では, 線形力学と二次的コストを有する低次元連続潜伏状態によって環境を要約する。
本結果は,システムモデルと一般関数近似における未知の非線形性を持つ連続制御のための,最初の証明可能なサンプル複雑性保証である。
論文 参考訳(メタデータ) (2020-10-08T07:02:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。