論文の概要: Prioritized Trace Selection: Towards High-Performance DRL-based Network
Controllers
- arxiv url: http://arxiv.org/abs/2302.12403v1
- Date: Fri, 24 Feb 2023 02:09:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 14:51:47.761131
- Title: Prioritized Trace Selection: Towards High-Performance DRL-based Network
Controllers
- Title(参考訳): 優先トレース選択:高性能DRLネットワークコントローラを目指して
- Authors: Sagar Patel, Junyang Zhang, Sangeetha Abdu Jyothi, Nina Narodytska
- Abstract要約: シミュレーターにおける高性能DRLコントローラのトレーニングのための一般化可能なソリューションの提案 - 優先トレース選択(PTS)-
PTSは、自動化された3段階プロセスを採用している。まず、トレースの挙動を決定する重要な特徴を識別する。次に、トレースをクラスタに分類する。第3に、トレーニング中に正常なクラスタを動的に識別し、優先順位付けする。
- 参考スコア(独自算出の注目度): 14.6262521111601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (DRL) based controllers offer high performance in
a variety of network environments. However, simulator-based training of DRL
controllers using highly skewed datasets of real-world traces often results in
poor performance in the wild. In this paper, we put forward a generalizable
solution for training high-performance DRL controllers in simulators --
Prioritized Trace Selection (PTS). PTS employs an automated three-stage
process. First, we identify critical features that determine trace behavior.
Second, we classify the traces into clusters. Finally, we dynamically identify
and prioritize the salient clusters during training.
PTS does not require any changes to the DRL workflow. It can work across both
on-policy and off-policy DRL algorithms. We use Adaptive Bit Rate selection and
Congestion Control as representative applications to show that PTS offers
better performance in simulation and real-world, across multiple controllers
and DRL algorithms. Our novel ABR controller, Gelato, trained with PTS
outperforms state-of-the-art controllers on the real-world live-streaming
platform, Puffer, reducing stalls by 59% and significantly improving average
video quality.
- Abstract(参考訳): Deep Reinforcement Learning (DRL)ベースのコントローラは、様々なネットワーク環境で高いパフォーマンスを提供する。
しかし、実世界のトレースの高度に歪んだデータセットを用いたDRLコントローラのシミュレータベースのトレーニングは、しばしば野生では性能が低下する。
本稿では,シミュレータにおける高性能DRLコントローラのトレーニングのための一般化可能なソリューションとして,Prioritized Trace Selection (PTS)を提案する。
PTSは自動化された3段階プロセスを採用している。
まず,追跡行動を決定する重要な特徴を特定する。
第2に、トレースをクラスタに分類する。
最後に,トレーニング中のsalientクラスタを動的に識別し,優先順位付けする。
PTSはDRLワークフローを変更する必要はない。
オン・ポリティクスとオフ・ポリティクスのDRLアルゴリズムの両方で動作する。
我々は、適応ビットレート選択と渋滞制御を代表アプリケーションとして使用し、PSSが複数のコントローラとDRLアルゴリズムでシミュレーションと実世界のパフォーマンスを向上させることを示す。
私たちの新しいABRコントローラーであるGelatoは、実世界のライブストリーミングプラットフォームであるPufferの最先端のコントローラよりも優れており、ストールを59%削減し、平均的なビデオ品質を大幅に向上させています。
関連論文リスト
- Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network [23.481553466650453]
本稿では,粗大かつ自己回帰的な方法でQ値をモデル化する値ベースRLアルゴリズムであるARSQを提案する。
ARSQは、連続的な作用空間を粗い階層の離散空間に分解し、きめ細かい連続制御タスクのサンプル効率を高める。
決定ステップごとに次元的行動の利点を自動回帰予測し、継続的な制御タスクにおいてより効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2025-02-01T03:04:53Z) - RLPP: A Residual Method for Zero-Shot Real-World Autonomous Racing on Scaled Platforms [9.517327026260181]
RLベースの残差を持つPure Pursuitコントローラを強化する残差RLフレームワークであるRLPPを提案する。
RLPPはベースラインコントローラのラップタイムを最大6.37%改善し、State-of-the-Artメソッドとのギャップを52%以上縮める。
RLPPはオープンソースツールとして利用可能であり、自律レース研究のさらなる探求と進歩を奨励している。
論文 参考訳(メタデータ) (2025-01-28T21:48:18Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and
Delivery Route Prediction [21.335721424944257]
ルート予測タスクにRL(Reinforcement Learning)を一般化する最初の試みとして,DRL4Routeと呼ばれる新しいRLベースのフレームワークを提案する。
DRL4Routeは既存のディープラーニングモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する。
これは、一般化アドバンテージ推定器を備えたアクター批判アーキテクチャに従う。
論文 参考訳(メタデータ) (2023-07-30T14:50:31Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - Federated Deep Reinforcement Learning for the Distributed Control of
NextG Wireless Networks [16.12495409295754]
次世代(NextG)ネットワークは、拡張現実(AR)やコネクテッド・自律走行車といった、インターネットの触覚を必要とするアプリケーションをサポートすることが期待されている。
データ駆動アプローチは、現在の運用条件に適応するネットワークの能力を改善することができる。
深部RL(DRL)は複雑な環境においても良好な性能を発揮することが示されている。
論文 参考訳(メタデータ) (2021-12-07T03:13:20Z) - Optimizing Mixed Autonomy Traffic Flow With Decentralized Autonomous
Vehicles and Multi-Agent RL [63.52264764099532]
本研究では、完全分散制御方式を用いて、混合自律環境でのボトルネックのスループットを向上させる自動運転車の能力について検討する。
この問題にマルチエージェント強化アルゴリズムを適用し、5%の浸透速度で20%から40%の浸透速度で33%までのボトルネックスループットの大幅な改善が達成できることを実証した。
論文 参考訳(メタデータ) (2020-10-30T22:06:05Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。