論文の概要: Reinforcement Learning with Graph Attention for Routing and Wavelength Assignment with Lightpath Reuse
- arxiv url: http://arxiv.org/abs/2502.14741v1
- Date: Thu, 20 Feb 2025 17:10:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:26:28.737535
- Title: Reinforcement Learning with Graph Attention for Routing and Wavelength Assignment with Lightpath Reuse
- Title(参考訳): 光路再使用によるルーティングと波長割り当てのためのグラフ注意による強化学習
- Authors: Michael Doherty, Alejandra Beghelli,
- Abstract要約: フレキシブルレートトランスポンダを用いた固定グリッドネットワーク上でのルーティングとスペクトル割り当ての強化学習について検討する。
RWA-LRは総長ではなくホップ数によって候補経路が順序づけられたときのスループットが6%向上することを示す。
我々はRWA-LRのためのRLエージェントをポリシーと値関数のためのグラフアテンションネットワークで訓練し、グラフ構造化データを利用する。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License:
- Abstract: Many works have investigated reinforcement learning (RL) for routing and spectrum assignment on flex-grid networks but only one work to date has examined RL for fixed-grid with flex-rate transponders, despite production systems using this paradigm. Flex-rate transponders allow existing lightpaths to accommodate new services, a task we term routing and wavelength assignment with lightpath reuse (RWA-LR). We re-examine this problem and present a thorough benchmarking of heuristic algorithms for RWA-LR, which are shown to have 6% increased throughput when candidate paths are ordered by number of hops, rather than total length. We train an RL agent for RWA-LR with graph attention networks for the policy and value functions to exploit the graph-structured data. We provide details of our methodology and open source all of our code for reproduction. We outperform the previous state-of-the-art RL approach by 2.5% (17.4 Tbps mean additional throughput) and the best heuristic by 1.2% (8.5 Tbps mean additional throughput). This marginal gain highlights the difficulty in learning effective RL policies on long horizon resource allocation tasks.
- Abstract(参考訳): 多くの研究が、フレキシブルグリッドネットワーク上でのルーティングとスペクトル割り当てのための強化学習(RL)を調査してきたが、このパラダイムを用いた生産システムにもかかわらず、フレキシブルレートトランスポンダを用いた固定グリッドのためのRLを1つの研究のみが検討している。
フレキシブルレートトランスポンダは、既存の光パスを新しいサービスに対応させ、ルーティングと光パス再利用(RWA-LR)による波長割り当てというタスクを可能にします。
我々はこの問題を再検討し、総長ではなくホップ数で候補経路が順序付けられた場合のスループットが6%向上するRWA-LRのヒューリスティックアルゴリズムの徹底的なベンチマークを行う。
我々はRWA-LRのためのRLエージェントをポリシーと値関数のためのグラフアテンションネットワークで訓練し、グラフ構造化データを利用する。
当社の方法論の詳細と、再生のためのすべてのコードをオープンソースにしています。
我々は、従来の最先端のRLアプローチを2.5%(17.4Tbpsが追加スループット)、最高のヒューリスティック(8.5Tbpsが追加スループット)で上回ります。
この限界利得は、長期資源配分タスクにおける効果的なRLポリシーの学習の難しさを浮き彫りにする。
関連論文リスト
- Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Knowledge Graph Reasoning with Self-supervised Reinforcement Learning [30.359557545737747]
本稿では,RLトレーニング前の政策ネットワークを温めるための自己指導型事前学習手法を提案する。
教師付き学習段階において、エージェントはポリシーネットワークに基づいて行動を選択し、生成されたラベルから学習する。
我々のSSRLモデルは、すべてのHits@kおよび平均相互ランク(MRR)メトリクスにおいて、現在の最先端結果と一致または超えていることを示す。
論文 参考訳(メタデータ) (2024-05-22T13:39:33Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Semi-Supervised Offline Reinforcement Learning with Action-Free
Trajectories [37.14064734165109]
自然エージェントは、サイズ、品質、種類の異なる複数のデータソースから学習することができる。
オフライン強化学習(RL)の文脈でこれを研究し、実際に動機付けされた半教師付き環境を導入する。
論文 参考訳(メタデータ) (2022-10-12T18:22:23Z) - RL-Scope: Cross-Stack Profiling for Deep Reinforcement Learning
Workloads [4.575381867242508]
RL-Scopeは、低レベルのCPU/GPUリソース使用量を高レベルのアルゴリズム操作にスコープするクロススタックプロファイラである。
本稿では,RL-Scopeの実用性について,詳細なケーススタディを通して紹介する。
論文 参考訳(メタデータ) (2021-02-08T15:42:48Z) - RLlib Flow: Distributed Reinforcement Learning is a Dataflow Problem [37.38316954355031]
分散強化学習による課題を再検討する。
本稿では,RLをデータフロー問題と見なすと,構成性が高く,性能も高い実装が得られることを示す。
分散RLのためのハイブリッドアクターデータフローモデルであるRLlib Flowを提案する。
論文 参考訳(メタデータ) (2020-11-25T13:28:16Z) - Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文 参考訳(メタデータ) (2020-02-25T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。