論文の概要: Closed-form congestion control via deep symbolic regression
- arxiv url: http://arxiv.org/abs/2405.01435v1
- Date: Thu, 28 Mar 2024 14:31:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-05 17:44:45.342035
- Title: Closed-form congestion control via deep symbolic regression
- Title(参考訳): 深部シンボルレグレッションによる閉形混雑制御
- Authors: Jean Martins, Igor Almeida, Ricardo Souza, Silvia Lins,
- Abstract要約: 強化学習(RL)アルゴリズムは、超低レイテンシおよび高スループットシナリオにおける課題を処理することができる。
実際のデプロイメントにおけるニューラルネットワークモデルの採用は、リアルタイムの推論と解釈可能性に関して、依然としていくつかの課題を提起している。
本稿では,性能と一般化能力を維持しつつ,このような課題に対処する方法論を提案する。
- 参考スコア(独自算出の注目度): 1.5961908901525192
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As mobile networks embrace the 5G era, the interest in adopting Reinforcement Learning (RL) algorithms to handle challenges in ultra-low-latency and high throughput scenarios increases. Simultaneously, the advent of packetized fronthaul networks imposes demanding requirements that traditional congestion control mechanisms cannot accomplish, highlighting the potential of RL-based congestion control algorithms. Although learning RL policies optimized for satisfying the stringent fronthaul requirements is feasible, the adoption of neural network models in real deployments still poses some challenges regarding real-time inference and interpretability. This paper proposes a methodology to deal with such challenges while maintaining the performance and generalization capabilities provided by a baseline RL policy. The method consists of (1) training a congestion control policy specialized in fronthaul-like networks via reinforcement learning, (2) collecting state-action experiences from the baseline, and (3) performing deep symbolic regression on the collected dataset. The proposed process overcomes the challenges related to inference-time limitations through closed-form expressions that approximate the baseline performance (link utilization, delay, and fairness) and which can be directly implemented in any programming language. Finally, we analyze the inner workings of the closed-form expressions.
- Abstract(参考訳): モバイルネットワークが5G時代を受け入れるにつれ、超低レイテンシと高スループットシナリオの課題に対処する強化学習(RL)アルゴリズムの採用への関心が高まっている。
同時に、パケット化されたフロントホールネットワークの出現は、従来の渋滞制御機構が達成できない要求を課し、RLベースの混雑制御アルゴリズムの可能性を強調している。
厳格なフロントホール要件を満たすために最適化されたRLポリシーを学ぶことは実現可能だが、実際のデプロイメントにおけるニューラルネットワークモデルの採用は、リアルタイムの推論と解釈可能性に関していくつかの課題を提起している。
本稿では,ベースラインRLポリシーによって提供される性能と一般化能力を維持しつつ,このような課題に対処する手法を提案する。
本手法は,(1)フォアホール型ネットワークに特有な渋滞制御ポリシーを強化学習により訓練し,(2)ベースラインから状態行動経験を収集し,(3)収集したデータセットに深い記号回帰を行う。
提案手法は, ベースライン性能(リンク利用, 遅延, 公平性)を近似し, 任意のプログラミング言語で直接実装可能なクローズドフォーム式により, 推論時間制限に関連する課題を克服する。
最後に, 閉形式表現の内部構造を解析する。
関連論文リスト
- Diffusion Predictive Control with Constraints [51.91057765703533]
制約付き拡散予測制御(DPCC)
トレーニングデータから逸脱可能な、明示的な状態と行動制約を持つ拡散制御アルゴリズム。
DPCCは,学習した制御タスクの性能を維持しつつ,新しいテスト時間制約を満たす上で,既存の手法よりも優れるロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - Offline Reinforcement Learning and Sequence Modeling for Downlink Link Adaptation [3.687363450234871]
リンク適応(LA)は、現代の無線通信システムにおいて欠かせない機能である。
LAは、通信リンクの伝送速度を時間変化および周波数変化の無線リンク条件に合わせるように動的に調整する。
近年の研究では、より一般的なルールベースのアルゴリズムの代替として、オンライン強化学習アプローチが導入されている。
論文 参考訳(メタデータ) (2024-10-30T14:01:31Z) - Differentiable Discrete Event Simulation for Queuing Network Control [7.965453961211742]
キューのネットワーク制御は、高い性、大きな状態とアクション空間、安定性の欠如など、異なる課題を生んでいる。
本稿では,異なる離散イベントシミュレーションに基づくポリシー最適化のためのスケーラブルなフレームワークを提案する。
本手法は,非定常環境で動作するシステムなど,現実的なシナリオを柔軟に処理することができる。
論文 参考訳(メタデータ) (2024-09-05T17:53:54Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Differentiated Federated Reinforcement Learning Based Traffic Offloading on Space-Air-Ground Integrated Networks [12.080548048901374]
本稿では,SAGINにおけるトラヒックオフロード問題を解決するために,DFRL(differated federated reinforcement learning)を用いることを提案する。
SAGINの各領域の異なる特性を考慮すると、DFRLはトラフィックオフロードポリシー最適化プロセスをモデル化する。
本稿では,この問題を解決するために,新たな微分型フェデレート・ソフト・アクター・クリティカル (DFSAC) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-05T07:40:29Z) - A Deep Reinforcement Learning Approach for Traffic Signal Control
Optimization [14.455497228170646]
非効率な信号制御手法は、交通渋滞やエネルギー浪費などの多くの問題を引き起こす可能性がある。
本稿では,アクター・クリティカル・ポリシー・グラデーション・アルゴリズムを拡張し,マルチエージェント・ディープ・決定性ポリシー・グラデーション(MADDPG)法を提案する。
論文 参考訳(メタデータ) (2021-07-13T14:11:04Z) - Reinforcement learning for Admission Control in 5G Wireless Networks [3.2345600015792564]
無線ネットワークにおける加入制御の重要な課題は、新しい要求のブロック確率と進行中の要求の低下確率の間の最適なトレードオフを課すことである。
入場制御問題を解くための2つのアプローチを考察する:i) 一般的に採用されているしきい値ポリシーとi) ニューラルネットワークによる強化学習に依存する政策を提案する。
論文 参考訳(メタデータ) (2021-04-13T06:37:18Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。