論文の概要: Plume: A Framework for High Performance Deep RL Network Controllers via
Prioritized Trace Sampling
- arxiv url: http://arxiv.org/abs/2302.12403v2
- Date: Sun, 12 Nov 2023 06:50:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 22:31:12.171320
- Title: Plume: A Framework for High Performance Deep RL Network Controllers via
Prioritized Trace Sampling
- Title(参考訳): Plume: 優先順位付きトレースサンプリングによる高性能ディープRLネットワークコントローラフレームワーク
- Authors: Sagar Patel, Junyang Zhang, Sangeetha Abdu Jyothi, Nina Narodytska
- Abstract要約: DRLトレーニングデータセットにおける歪んだ入力トレース分布を自動的に識別し、バランスをとるためのフレームワークPlumeを導入する。
本稿では,適応ビットレートストリーミング,混雑制御,負荷分散といった3つのネットワーク環境におけるPlumeの評価を行った。
Plumeは、異なるコントローラとDRLアルゴリズムでシミュレーションと実世界の設定の両方で優れたパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 8.917042313344943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (DRL) has shown promise in various networking
environments. However, these environments present several fundamental
challenges for standard DRL techniques. They are difficult to explore and
exhibit high levels of noise and uncertainty. Although these challenges
complicate the training process, we find that in practice we can substantially
mitigate their effects and even achieve state-of-the-art real-world performance
by addressing a factor that has been previously overlooked: the skewed input
trace distribution in DRL training datasets.
We introduce a generalized framework, Plume, to automatically identify and
balance the skew using a three-stage process. First, we identify the critical
features that determine the behavior of the traces. Second, we classify the
traces into clusters. Finally, we prioritize the salient clusters to improve
the overall performance of the controller. Plume seamlessly works across DRL
algorithms, without requiring any changes to the DRL workflow. We evaluated
Plume on three networking environments, including Adaptive Bitrate Streaming,
Congestion Control, and Load Balancing. Plume offers superior performance in
both simulation and real-world settings, across different controllers and DRL
algorithms. For example, our novel ABR controller, Gelato trained with Plume
consistently outperforms prior state-of-the-art controllers on the live
streaming platform Puffer for over a year. It is the first controller on the
platform to deliver statistically significant improvements in both video
quality and stalling, decreasing stalls by as much as 75%.
- Abstract(参考訳): Deep Reinforcement Learning (DRL)は様々なネットワーク環境において有望である。
しかし、これらの環境は標準DRL技術にいくつかの根本的な課題をもたらす。
高いレベルのノイズや不確実性を探索し示すことは困難である。
これらの課題はトレーニングプロセスを複雑にするが、実際にはDRLトレーニングデータセットの歪んだ入力トレース分布である、これまで見過ごされていた要因に対処することで、その効果を大幅に軽減し、最先端の現実世界のパフォーマンスを達成できる。
一般化されたフレームワークPlumeを導入し、3段階プロセスを用いてスキューを自動的に識別しバランスをとる。
まず,痕跡の挙動を決定する重要な特徴を明らかにする。
第2に、トレースをクラスタに分類する。
最後に、salientクラスタを優先して、コントローラ全体のパフォーマンスを改善します。
PlumeはDRLのアルゴリズムでシームレスに動作し、DRLのワークフローを変更する必要はない。
我々は,適応ビットレートストリーミング,混雑制御,負荷分散といった3つのネットワーク環境におけるPlumeの評価を行った。
Plumeは、異なるコントローラとDRLアルゴリズムでシミュレーションと現実世界の両方で優れたパフォーマンスを提供する。
例えば、私たちの新しいABRコントローラであるGelatoはPlumeでトレーニングし、ライブストリーミングプラットフォームであるPufferで1年以上にわたって、最先端のコントローラよりも一貫して優れています。
このプラットフォームでは、ビデオ品質とストールの両方において統計的に大幅な改善を行い、ストールを最大75%削減した最初のコントローラーである。
関連論文リスト
- Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network [23.481553466650453]
本稿では,粗大かつ自己回帰的な方法でQ値をモデル化する値ベースRLアルゴリズムであるARSQを提案する。
ARSQは、連続的な作用空間を粗い階層の離散空間に分解し、きめ細かい連続制御タスクのサンプル効率を高める。
決定ステップごとに次元的行動の利点を自動回帰予測し、継続的な制御タスクにおいてより効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2025-02-01T03:04:53Z) - RLPP: A Residual Method for Zero-Shot Real-World Autonomous Racing on Scaled Platforms [9.517327026260181]
RLベースの残差を持つPure Pursuitコントローラを強化する残差RLフレームワークであるRLPPを提案する。
RLPPはベースラインコントローラのラップタイムを最大6.37%改善し、State-of-the-Artメソッドとのギャップを52%以上縮める。
RLPPはオープンソースツールとして利用可能であり、自律レース研究のさらなる探求と進歩を奨励している。
論文 参考訳(メタデータ) (2025-01-28T21:48:18Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and
Delivery Route Prediction [21.335721424944257]
ルート予測タスクにRL(Reinforcement Learning)を一般化する最初の試みとして,DRL4Routeと呼ばれる新しいRLベースのフレームワークを提案する。
DRL4Routeは既存のディープラーニングモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する。
これは、一般化アドバンテージ推定器を備えたアクター批判アーキテクチャに従う。
論文 参考訳(メタデータ) (2023-07-30T14:50:31Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - Federated Deep Reinforcement Learning for the Distributed Control of
NextG Wireless Networks [16.12495409295754]
次世代(NextG)ネットワークは、拡張現実(AR)やコネクテッド・自律走行車といった、インターネットの触覚を必要とするアプリケーションをサポートすることが期待されている。
データ駆動アプローチは、現在の運用条件に適応するネットワークの能力を改善することができる。
深部RL(DRL)は複雑な環境においても良好な性能を発揮することが示されている。
論文 参考訳(メタデータ) (2021-12-07T03:13:20Z) - Optimizing Mixed Autonomy Traffic Flow With Decentralized Autonomous
Vehicles and Multi-Agent RL [63.52264764099532]
本研究では、完全分散制御方式を用いて、混合自律環境でのボトルネックのスループットを向上させる自動運転車の能力について検討する。
この問題にマルチエージェント強化アルゴリズムを適用し、5%の浸透速度で20%から40%の浸透速度で33%までのボトルネックスループットの大幅な改善が達成できることを実証した。
論文 参考訳(メタデータ) (2020-10-30T22:06:05Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。