論文の概要: Online Frequency Scheduling by Learning Parallel Actions
- arxiv url: http://arxiv.org/abs/2406.05041v1
- Date: Fri, 7 Jun 2024 16:14:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 13:22:27.801823
- Title: Online Frequency Scheduling by Learning Parallel Actions
- Title(参考訳): 並列行動学習によるオンライン周波数スケジューリング
- Authors: Anastasios Giovanidis, Mathieu Leconte, Sabrine Aroua, Tor Kvernvik, David Sandberg,
- Abstract要約: 周波数リソースは、同じサブバンド内の同時送信を許可しながら、ユーザのセットに割り当てられる必要がある。
従来の手法は、関連するすべての制約や不確実性に対処するには不十分である。
本稿では,並列決定機能を備えたQラーニングアーキテクチャであるサブバンド上でのアクションブランチに基づくスケジューラを提案する。
- 参考スコア(独自算出の注目度): 5.9838600557884805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Radio Resource Management is a challenging topic in future 6G networks where novel applications create strong competition among the users for the available resources. In this work we consider the frequency scheduling problem in a multi-user MIMO system. Frequency resources need to be assigned to a set of users while allowing for concurrent transmissions in the same sub-band. Traditional methods are insufficient to cope with all the involved constraints and uncertainties, whereas reinforcement learning can directly learn near-optimal solutions for such complex environments. However, the scheduling problem has an enormous action space accounting for all the combinations of users and sub-bands, so out-of-the-box algorithms cannot be used directly. In this work, we propose a scheduler based on action-branching over sub-bands, which is a deep Q-learning architecture with parallel decision capabilities. The sub-bands learn correlated but local decision policies and altogether they optimize a global reward. To improve the scaling of the architecture with the number of sub-bands, we propose variations (Unibranch, Graph Neural Network-based) that reduce the number of parameters to learn. The parallel decision making of the proposed architecture allows to meet short inference time requirements in real systems. Furthermore, the deep Q-learning approach permits online fine-tuning after deployment to bridge the sim-to-real gap. The proposed architectures are evaluated against relevant baselines from the literature showing competitive performance and possibilities of online adaptation to evolving environments.
- Abstract(参考訳): 無線リソース管理は将来の6Gネットワークにおける課題であり、新しいアプリケーションが利用可能なリソースに対するユーザ間の強力な競争を生み出す。
本研究では,マルチユーザMIMOシステムにおける周波数スケジューリング問題について考察する。
周波数リソースは、同じサブバンド内の同時送信を許可しながら、ユーザのセットに割り当てられる必要がある。
従来の手法ではすべての制約や不確実性に対処できないが、強化学習はそのような複雑な環境に対する準最適解を直接学習することができる。
しかし、スケジューリング問題にはユーザとサブバンドの組み合わせをすべて考慮した巨大なアクションスペースがあり、アウト・オブ・ザ・ボックスのアルゴリズムを直接使用することはできない。
本研究では,並列決定機能を持つ深層Qラーニングアーキテクチャであるサブバンド上でのアクションブランチに基づくスケジューラを提案する。
サブバンドは相関するが局所的な決定方針を学習し、グローバルな報酬を最適化する。
サブバンド数でアーキテクチャのスケーリングを改善するため、学習するパラメータの数を削減できるバリエーション(Unibranch, Graph Neural Network-based)を提案する。
提案したアーキテクチャの並列決定により、実際のシステムにおける短い推論時間要件を満たすことができる。
さらに、ディープラーニングアプローチでは、デプロイ後のオンラインの微調整によって、sim-to-realギャップを埋めることができる。
提案したアーキテクチャは,競争性能と進化する環境へのオンライン適応の可能性を示す文献から,関連するベースラインに対して評価される。
関連論文リスト
- FLARE: A New Federated Learning Framework with Adjustable Learning Rates over Resource-Constrained Wireless Networks [20.048146776405005]
ワイヤレス・フェデレート・ラーニング(WFL)は、データ分散、計算能力、チャネル条件などにおいて不均一性に悩まされている。
本稿では,Federated Learning Adjusted lean ratE (FLR ratE)による新しいアイデアを提案する。
FLAREが一貫してベースラインを上回っている実験。
論文 参考訳(メタデータ) (2024-04-23T07:48:17Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Scheduling Inference Workloads on Distributed Edge Clusters with
Reinforcement Learning [11.007816552466952]
本稿では,エッジネットワークにおける予測クエリを短時間でスケジューリングする問題に焦点をあてる。
シミュレーションにより,大規模ISPの現実的なネットワーク設定とワークロードにおけるいくつかのポリシーを解析する。
我々は、強化学習に基づくスケジューリングアルゴリズムASETを設計し、システム条件に応じてその決定を適応させることができる。
論文 参考訳(メタデータ) (2023-01-31T13:23:34Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - Learning Robust Scheduling with Search and Attention [6.217548079545464]
物理層リソースをチャネル品質、バッファサイズ、要求および制約に基づいてユーザに割り当てることは、無線リソースの管理における中心的な最適化問題の1つである。
MU-MIMOスケジューリングでは、スケジューラが複数のユーザを同じ時間周波数の物理リソースに割り当てることができる。
本稿では,MU-MIMOスケジューリング問題を木構造問題として扱うとともに,AlphaGo Zeroの最近の成功から借用して,最高の実行ソリューションを探す可能性について検討する。
論文 参考訳(メタデータ) (2021-11-15T20:46:26Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z) - Deep Reinforcement Learning for Resource Constrained Multiclass
Scheduling in Wireless Networks [0.0]
セットアップでは、ランダムに到着するサービス要求に対応するために、利用可能な限られた帯域幅のリソースを割り当てます。
本稿では,Deep Setsと組み合わせた分布型Deep Deterministic Policy Gradient (DDPG)アルゴリズムを提案する。
提案アルゴリズムは, 合成データと実データの両方で検証し, 従来手法に対する一貫した利得を示す。
論文 参考訳(メタデータ) (2020-11-27T09:49:38Z) - Deep-Reinforcement-Learning-Based Scheduling with Contiguous Resource
Allocation for Next-Generation Cellular Systems [4.227387975627387]
深部強化学習(DRL)に基づく連続周波数領域リソース割り当て(FDRA)を用いた新しいスケジューリングアルゴリズムを提案する。
DRLに基づくスケジューリングアルゴリズムは、オンライン計算の複雑さを低くしながら、他の代表的ベースライン方式よりも優れている。
論文 参考訳(メタデータ) (2020-10-11T05:41:40Z) - Deep Multi-Task Learning for Cooperative NOMA: System Design and
Principles [52.79089414630366]
我々は,近年のディープラーニング(DL)の進歩を反映した,新しいディープ・コラボレーティブなNOMAスキームを開発する。
我々は,システム全体を包括的に最適化できるように,新しいハイブリッドカスケードディープニューラルネットワーク(DNN)アーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-07-27T12:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。