論文の概要: Closed-form congestion control via deep symbolic regression
- arxiv url: http://arxiv.org/abs/2405.01435v1
- Date: Thu, 28 Mar 2024 14:31:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-05 17:44:45.342035
- Title: Closed-form congestion control via deep symbolic regression
- Title(参考訳): 深部シンボルレグレッションによる閉形混雑制御
- Authors: Jean Martins, Igor Almeida, Ricardo Souza, Silvia Lins,
- Abstract要約: 強化学習(RL)アルゴリズムは、超低レイテンシおよび高スループットシナリオにおける課題を処理することができる。
実際のデプロイメントにおけるニューラルネットワークモデルの採用は、リアルタイムの推論と解釈可能性に関して、依然としていくつかの課題を提起している。
本稿では,性能と一般化能力を維持しつつ,このような課題に対処する方法論を提案する。
- 参考スコア(独自算出の注目度): 1.5961908901525192
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As mobile networks embrace the 5G era, the interest in adopting Reinforcement Learning (RL) algorithms to handle challenges in ultra-low-latency and high throughput scenarios increases. Simultaneously, the advent of packetized fronthaul networks imposes demanding requirements that traditional congestion control mechanisms cannot accomplish, highlighting the potential of RL-based congestion control algorithms. Although learning RL policies optimized for satisfying the stringent fronthaul requirements is feasible, the adoption of neural network models in real deployments still poses some challenges regarding real-time inference and interpretability. This paper proposes a methodology to deal with such challenges while maintaining the performance and generalization capabilities provided by a baseline RL policy. The method consists of (1) training a congestion control policy specialized in fronthaul-like networks via reinforcement learning, (2) collecting state-action experiences from the baseline, and (3) performing deep symbolic regression on the collected dataset. The proposed process overcomes the challenges related to inference-time limitations through closed-form expressions that approximate the baseline performance (link utilization, delay, and fairness) and which can be directly implemented in any programming language. Finally, we analyze the inner workings of the closed-form expressions.
- Abstract(参考訳): モバイルネットワークが5G時代を受け入れるにつれ、超低レイテンシと高スループットシナリオの課題に対処する強化学習(RL)アルゴリズムの採用への関心が高まっている。
同時に、パケット化されたフロントホールネットワークの出現は、従来の渋滞制御機構が達成できない要求を課し、RLベースの混雑制御アルゴリズムの可能性を強調している。
厳格なフロントホール要件を満たすために最適化されたRLポリシーを学ぶことは実現可能だが、実際のデプロイメントにおけるニューラルネットワークモデルの採用は、リアルタイムの推論と解釈可能性に関していくつかの課題を提起している。
本稿では,ベースラインRLポリシーによって提供される性能と一般化能力を維持しつつ,このような課題に対処する手法を提案する。
本手法は,(1)フォアホール型ネットワークに特有な渋滞制御ポリシーを強化学習により訓練し,(2)ベースラインから状態行動経験を収集し,(3)収集したデータセットに深い記号回帰を行う。
提案手法は, ベースライン性能(リンク利用, 遅延, 公平性)を近似し, 任意のプログラミング言語で直接実装可能なクローズドフォーム式により, 推論時間制限に関連する課題を克服する。
最後に, 閉形式表現の内部構造を解析する。
関連論文リスト
- Liquid Neural Network-based Adaptive Learning vs. Incremental Learning for Link Load Prediction amid Concept Drift due to Network Failures [37.66676003679306]
概念の漂流に適応することは、機械学習において難しい課題である。
通信ネットワークでは、障害イベントの後に交通予報を行う際にこのような問題が生じる。
本稿では,適応学習アルゴリズム,すなわち,データパターンの急激な変化を,再学習を必要とせずに自己適応できる手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T08:47:46Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Improving the generalizability and robustness of large-scale traffic
signal control [3.8028221877086814]
交通信号の制御における深部強化学習(RL)アプローチの堅牢性について検討する。
欠落したデータに対して,近年の手法が脆弱なままであることを示す。
政策アンサンブルによる分散強化学習とバニラ強化学習の組み合わせを提案する。
論文 参考訳(メタデータ) (2023-06-02T21:30:44Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - A Deep Reinforcement Learning Approach for Traffic Signal Control
Optimization [14.455497228170646]
非効率な信号制御手法は、交通渋滞やエネルギー浪費などの多くの問題を引き起こす可能性がある。
本稿では,アクター・クリティカル・ポリシー・グラデーション・アルゴリズムを拡張し,マルチエージェント・ディープ・決定性ポリシー・グラデーション(MADDPG)法を提案する。
論文 参考訳(メタデータ) (2021-07-13T14:11:04Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Reinforcement learning for Admission Control in 5G Wireless Networks [3.2345600015792564]
無線ネットワークにおける加入制御の重要な課題は、新しい要求のブロック確率と進行中の要求の低下確率の間の最適なトレードオフを課すことである。
入場制御問題を解くための2つのアプローチを考察する:i) 一般的に採用されているしきい値ポリシーとi) ニューラルネットワークによる強化学習に依存する政策を提案する。
論文 参考訳(メタデータ) (2021-04-13T06:37:18Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Proactive and AoI-aware Failure Recovery for Stateful NFV-enabled
Zero-Touch 6G Networks: Model-Free DRL Approach [0.0]
ゼロタッチPFR(ZT-PFR)と呼ばれるモデルフリー深部強化学習(DRL)に基づくアクティブ障害回復フレームワークを提案する。
ZT-PFRは、ネットワーク機能仮想化(NFV)対応ネットワークにおける組み込みステートフル仮想ネットワーク機能(VNF)用です。
論文 参考訳(メタデータ) (2021-02-02T21:40:35Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。