Fugu-MT 論文翻訳(概要): Prioritized Trace Selection: Towards High-Performance DRL-based Network Controllers

論文の概要: Prioritized Trace Selection: Towards High-Performance DRL-based Network Controllers

arxiv url: http://arxiv.org/abs/2302.12403v1
Date: Fri, 24 Feb 2023 02:09:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-27 14:51:47.761131
Title: Prioritized Trace Selection: Towards High-Performance DRL-based Network Controllers
Title（参考訳）: 優先トレース選択:高性能DRLネットワークコントローラを目指して
Authors: Sagar Patel, Junyang Zhang, Sangeetha Abdu Jyothi, Nina Narodytska
Abstract要約: シミュレーターにおける高性能DRLコントローラのトレーニングのための一般化可能なソリューションの提案 - 優先トレース選択(PTS)- PTSは、自動化された3段階プロセスを採用している。まず、トレースの挙動を決定する重要な特徴を識別する。次に、トレースをクラスタに分類する。第3に、トレーニング中に正常なクラスタを動的に識別し、優先順位付けする。
参考スコア（独自算出の注目度）: 14.6262521111601
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep Reinforcement Learning (DRL) based controllers offer high performance in a variety of network environments. However, simulator-based training of DRL controllers using highly skewed datasets of real-world traces often results in poor performance in the wild. In this paper, we put forward a generalizable solution for training high-performance DRL controllers in simulators -- Prioritized Trace Selection (PTS). PTS employs an automated three-stage process. First, we identify critical features that determine trace behavior. Second, we classify the traces into clusters. Finally, we dynamically identify and prioritize the salient clusters during training. PTS does not require any changes to the DRL workflow. It can work across both on-policy and off-policy DRL algorithms. We use Adaptive Bit Rate selection and Congestion Control as representative applications to show that PTS offers better performance in simulation and real-world, across multiple controllers and DRL algorithms. Our novel ABR controller, Gelato, trained with PTS outperforms state-of-the-art controllers on the real-world live-streaming platform, Puffer, reducing stalls by 59% and significantly improving average video quality.
Abstract（参考訳）: Deep Reinforcement Learning (DRL)ベースのコントローラは、様々なネットワーク環境で高いパフォーマンスを提供する。しかし、実世界のトレースの高度に歪んだデータセットを用いたDRLコントローラのシミュレータベースのトレーニングは、しばしば野生では性能が低下する。本稿では,シミュレータにおける高性能DRLコントローラのトレーニングのための一般化可能なソリューションとして,Prioritized Trace Selection (PTS)を提案する。 PTSは自動化された3段階プロセスを採用している。まず,追跡行動を決定する重要な特徴を特定する。第2に、トレースをクラスタに分類する。最後に,トレーニング中のsalientクラスタを動的に識別し,優先順位付けする。 PTSはDRLワークフローを変更する必要はない。オン・ポリティクスとオフ・ポリティクスのDRLアルゴリズムの両方で動作する。我々は、適応ビットレート選択と渋滞制御を代表アプリケーションとして使用し、PSSが複数のコントローラとDRLアルゴリズムでシミュレーションと実世界のパフォーマンスを向上させることを示す。私たちの新しいABRコントローラーであるGelatoは、実世界のライブストリーミングプラットフォームであるPufferの最先端のコントローラよりも優れており、ストールを59%削減し、平均的なビデオ品質を大幅に向上させています。

関連論文リスト

MindSpeed RL: Distributed Dataflow for Scalable and Efficient RL Training on Ascend NPU Cluster [6.589537564035392]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルの整合化にますます用いられるパラダイムである。本稿では,大規模RL学習のための効果的かつ効率的なシステムであるMindSpeed RLを紹介する。
論文参考訳（メタデータ） (2025-07-25T07:11:49Z)
Leveling the Playing Field: Carefully Comparing Classical and Learned Controllers for Quadrotor Trajectory Tracking [26.134736322861443]
強化学習(RL)のような学習ベースの制御アプローチは、最近、四足歩行追跡やドローンレースといったタスクに対して、印象的な結果を生み出した。しかしながら、このような非常に異なるコントローラのクラスの性能を確実に比較することは、一見するとより複雑である。ベンチマークのためのクラス最高のRLと幾何学的コントローラを合成するためのベストプラクティスのセットを開発する。
論文参考訳（メタデータ） (2025-06-21T22:03:00Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network [23.481553466650453]
本稿では,粗大かつ自己回帰的な方法でQ値をモデル化する値ベースRLアルゴリズムであるARSQを提案する。 ARSQは、連続的な作用空間を粗い階層の離散空間に分解し、きめ細かい連続制御タスクのサンプル効率を高める。決定ステップごとに次元的行動の利点を自動回帰予測し、継続的な制御タスクにおいてより効果的な意思決定を可能にする。
論文参考訳（メタデータ） (2025-02-01T03:04:53Z)
RLPP: A Residual Method for Zero-Shot Real-World Autonomous Racing on Scaled Platforms [9.517327026260181]
RLベースの残差を持つPure Pursuitコントローラを強化する残差RLフレームワークであるRLPPを提案する。 RLPPはベースラインコントローラのラップタイムを最大6.37%改善し、State-of-the-Artメソッドとのギャップを52%以上縮める。 RLPPはオープンソースツールとして利用可能であり、自律レース研究のさらなる探求と進歩を奨励している。
論文参考訳（メタデータ） (2025-01-28T21:48:18Z)
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文参考訳（メタデータ） (2024-08-15T22:27:00Z)
How Does Forecasting Affect the Convergence of DRL Techniques in O-RAN Slicing? [20.344810727033327]
本稿では,DRLの収束性を高めるため,新しい予測支援型DRL手法とそのO-RAN実運用ワークフローを提案する。提案手法では, 平均初期報酬値, 収束率, 収束シナリオ数において最大22.8%, 86.3%, 300%の改善が見られた。
論文参考訳（メタデータ） (2023-09-01T14:30:04Z)
DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and Delivery Route Prediction [21.335721424944257]
ルート予測タスクにRL(Reinforcement Learning)を一般化する最初の試みとして,DRL4Routeと呼ばれる新しいRLベースのフレームワークを提案する。 DRL4Routeは既存のディープラーニングモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する。これは、一般化アドバンテージ推定器を備えたアクター批判アーキテクチャに従う。
論文参考訳（メタデータ） (2023-07-30T14:50:31Z)
Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。 EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文参考訳（メタデータ） (2023-05-31T17:55:21Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文参考訳（メタデータ） (2021-12-31T18:10:02Z)
Federated Deep Reinforcement Learning for the Distributed Control of NextG Wireless Networks [16.12495409295754]
次世代(NextG)ネットワークは、拡張現実(AR)やコネクテッド・自律走行車といった、インターネットの触覚を必要とするアプリケーションをサポートすることが期待されている。データ駆動アプローチは、現在の運用条件に適応するネットワークの能力を改善することができる。深部RL(DRL)は複雑な環境においても良好な性能を発揮することが示されている。
論文参考訳（メタデータ） (2021-12-07T03:13:20Z)
Optimizing Mixed Autonomy Traffic Flow With Decentralized Autonomous Vehicles and Multi-Agent RL [63.52264764099532]
本研究では、完全分散制御方式を用いて、混合自律環境でのボトルネックのスループットを向上させる自動運転車の能力について検討する。この問題にマルチエージェント強化アルゴリズムを適用し、5%の浸透速度で20%から40%の浸透速度で33%までのボトルネックスループットの大幅な改善が達成できることを実証した。
論文参考訳（メタデータ） (2020-10-30T22:06:05Z)
Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。現在の最先端の手法に匹敵する幅と精度を実現している。
論文参考訳（メタデータ） (2020-07-09T13:06:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。