論文の概要: MAMRL: Exploiting Multi-agent Meta Reinforcement Learning in WAN Traffic
Engineering
- arxiv url: http://arxiv.org/abs/2111.15087v1
- Date: Tue, 30 Nov 2021 03:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 05:36:23.618538
- Title: MAMRL: Exploiting Multi-agent Meta Reinforcement Learning in WAN Traffic
Engineering
- Title(参考訳): MAMRL: WAN交通工学におけるマルチエージェントメタ強化学習の展開
- Authors: Shan Sun, Mariam Kiran, Wei Ren
- Abstract要約: ロードバランシングやフロースケジューリング、パケット配信時間の改善といったトラフィック最適化の課題は、広域ネットワーク(WAN)におけるオンライン意思決定の問題である。
我々は,マルチエージェントメタ強化学習(MAMRL)を用いて,各パケットの次ホップを最小限の時間で決定できるモデルフリーアプローチを開発し,評価する。
- 参考スコア(独自算出の注目度): 4.051011665760136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traffic optimization challenges, such as load balancing, flow scheduling, and
improving packet delivery time, are difficult online decision-making problems
in wide area networks (WAN). Complex heuristics are needed for instance to find
optimal paths that improve packet delivery time and minimize interruptions
which may be caused by link failures or congestion. The recent success of
reinforcement learning (RL) algorithms can provide useful solutions to build
better robust systems that learn from experience in model-free settings.
In this work, we consider a path optimization problem, specifically for
packet routing, in large complex networks. We develop and evaluate a model-free
approach, applying multi-agent meta reinforcement learning (MAMRL) that can
determine the next-hop of each packet to get it delivered to its destination
with minimum time overall. Specifically, we propose to leverage and compare
deep policy optimization RL algorithms for enabling distributed model-free
control in communication networks and present a novel meta-learning-based
framework, MAMRL, for enabling quick adaptation to topology changes. To
evaluate the proposed framework, we simulate with various WAN topologies. Our
extensive packet-level simulation results show that compared to classical
shortest path and traditional reinforcement learning approaches, MAMRL
significantly reduces the average packet delivery time even when network demand
increases; and compared to a non-meta deep policy optimization algorithm, our
results show the reduction of packet loss in much fewer episodes when link
failures occur while offering comparable average packet delivery time.
- Abstract(参考訳): ロードバランシングやフロースケジューリング,パケット配信時間の改善といったトラフィック最適化の課題は,広域ネットワーク(WAN)におけるオンライン意思決定の問題である。
複雑なヒューリスティックは、例えば、パケットの配送時間を改善し、リンク障害や混雑に起因する中断を最小限に抑える最適な経路を見つけるために必要である。
最近の強化学習(rl)アルゴリズムの成功は、モデルフリーの設定で経験から学ぶより堅牢なシステムを構築するための有用なソリューションを提供する。
本研究では,大規模ネットワークにおける経路最適化問題,特にパケットルーティングについて考察する。
我々は,マルチエージェントメタ強化学習(MAMRL)を用いて,各パケットの次ホップを最小限の時間で決定できるモデルフリーアプローチを開発し,評価する。
具体的には,コミュニケーションネットワークにおける分散モデルフリー制御を実現するために,ディープポリシー最適化 rl アルゴリズムを活用・比較し,新しいメタラーニングベースのフレームワーク mamrl を提案する。
提案するフレームワークを評価するために,様々なWANトポロジをシミュレートする。
また,非メタ深層ポリシー最適化アルゴリズムと比較して,リンク障害発生時のパケット損失の低減効果を比較検討した結果,平均パケット配送時間と比較し,リンク障害発生時のパケット損失の低減効果を示した。
関連論文リスト
- Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
第6世代(6G)ネットワークは、従来のRISの限界を克服するために、再構成可能なインテリジェントサーフェス(STAR-RIS)を同時に送信および反射する。
STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を示す。
屋内通信に複数のアクセスポイント(AP)とSTAR-RISを利用する新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-19T07:17:04Z) - Reinforcement-Learning based routing for packet-optical networks with hybrid telemetry [0.3848364262836075]
このアルゴリズムは,FEC前BERで測定したリンク負荷変化やリンク劣化に対する最適ポリシーを再計算することにより,ネットワーク条件の変化に動的に適応することを示した。
論文 参考訳(メタデータ) (2024-06-18T13:32:12Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Robust Path Selection in Software-defined WANs using Deep Reinforcement
Learning [18.586260468459386]
本稿では、経路計算と経路更新のオーバーヘッドを考慮した、ネットワーク内の経路選択を行うデータ駆動アルゴリズムを提案する。
提案手法は,ECMPなどの従来のTE方式に比べてリンク利用率を40%削減できる。
論文 参考訳(メタデータ) (2022-12-21T16:08:47Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - AI-aided Traffic Control Scheme for M2M Communications in the Internet
of Vehicles [61.21359293642559]
交通のダイナミクスと異なるIoVアプリケーションの異種要求は、既存のほとんどの研究では考慮されていない。
本稿では,ハイブリッド交通制御方式とPPO法を併用して検討する。
論文 参考訳(メタデータ) (2022-03-05T10:54:05Z) - Packet Routing with Graph Attention Multi-agent Reinforcement Learning [4.78921052969006]
我々は強化学習(RL)を利用したモデルフリーでデータ駆動型ルーティング戦略を開発する。
ネットワークトポロジのグラフ特性を考慮すると、グラフニューラルネットワーク(GNN)と組み合わせたマルチエージェントRLフレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-28T06:20:34Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Relational Deep Reinforcement Learning for Routing in Wireless Networks [2.997420836766863]
我々は,トラフィックパターン,混雑レベル,ネットワーク接続性,リンクダイナミクスを一般化した,深層強化学習に基づく分散ルーティング戦略を開発した。
提案アルゴリズムは,パケットの配送やパケット毎の遅延に対して,最短経路とバックプレッシャルーティングに優れる。
論文 参考訳(メタデータ) (2020-12-31T16:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。