論文の概要: RLx2: Training a Sparse Deep Reinforcement Learning Model from Scratch
- arxiv url: http://arxiv.org/abs/2205.15043v1
- Date: Mon, 30 May 2022 12:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 18:04:32.340777
- Title: RLx2: Training a Sparse Deep Reinforcement Learning Model from Scratch
- Title(参考訳): RLx2:スクラッチによるスパースディープ強化学習モデルの訓練
- Authors: Yiqin Tan, Pihe Hu, Ling Pan, Longbo Huang
- Abstract要約: 深層強化学習(DRL)モデルの訓練は通常、高いコストを必要とする。
DRLモデルの圧縮は、トレーニングアクセラレーションとモデル展開に大きな可能性を秘めている。
我々は,「textbfRigged textbfReinforcement textbfLearning textbfLottery (RLx2) 」という,新しいスパースDRLトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.104546205134103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep reinforcement learning (DRL) models usually requires high
computation costs. Therefore, compressing DRL models possesses immense
potential for training acceleration and model deployment. However, existing
methods that generate small models mainly adopt the knowledge distillation
based approach by iteratively training a dense network, such that the training
process still demands massive computing resources. Indeed, sparse training from
scratch in DRL has not been well explored and is particularly challenging due
to non-stationarity in bootstrap training. In this work, we propose a novel
sparse DRL training framework, "the \textbf{R}igged \textbf{R}einforcement
\textbf{L}earning \textbf{L}ottery" (RLx2), which is capable of training a DRL
agent \emph{using an ultra-sparse network throughout} for off-policy
reinforcement learning. The systematic RLx2 framework contains three key
components: gradient-based topology evolution, multi-step Temporal Difference
(TD) targets, and dynamic-capacity replay buffer. RLx2 enables efficient
topology exploration and robust Q-value estimation simultaneously. We
demonstrate state-of-the-art sparse training performance in several continuous
control tasks using RLx2, showing $7.5\times$-$20\times$ model compression with
less than $3\%$ performance degradation, and up to $20\times$ and $50\times$
FLOPs reduction for training and inference, respectively.
- Abstract(参考訳): 深層強化学習(DRL)モデルの訓練は通常、高い計算コストを必要とする。
したがって、DRLモデルを圧縮することは、トレーニングアクセラレーションとモデル展開にとって大きな可能性を秘めている。
しかし, 大規模ネットワークを反復的に訓練することで, 知識蒸留に基づくアプローチを主眼とし, 学習プロセスは依然として膨大な計算資源を必要とする。
実際、DRLのスクラッチからのスパーストレーニングは十分に検討されておらず、ブートストラップトレーニングの非定常性のために特に困難である。
本研究では, DRLエージェント \emph{using a Ultra-sparse network throughout} をトレーニング可能な, 新規なスパースDRLトレーニングフレームワーク "the \textbf{R}igged \textbf{R}einforcement \textbf{L}earning \textbf{L}ottery" (RLx2) を提案する。
系統的なRLx2フレームワークには、勾配ベースのトポロジー進化、TDターゲットのマルチステップ、動的キャパシティ再生バッファの3つの重要なコンポーネントが含まれている。
RLx2は、効率的なトポロジー探索と堅牢なQ値推定を可能にする。
RLx2を用いたいくつかの連続制御タスクにおいて、最先端のスパーストレーニング性能を実演し、それぞれ$7.5\times$-$20\times$モデル圧縮に$3\%以下のパフォーマンス劣化、最大20\times$と50\times$FLOPsのトレーニングと推論の削減を示す。
関連論文リスト
- Stop Regressing: Training Value Functions via Classification for
Scalable Deep RL [109.44370201929246]
分類的クロスエントロピーを用いた値関数のトレーニングにより,様々な領域における性能とスケーラビリティが向上することを示す。
例えば、SoftMoEによるAtari 2600ゲームでのシングルタスクRL、大規模ResNetによるAtariでのマルチタスクRL、Q-トランスフォーマーによるロボット操作、検索なしでチェスをプレイする、高容量トランスフォーマーによる言語エージェントWordleタスクなどがある。
論文 参考訳(メタデータ) (2024-03-06T18:55:47Z) - Compressing Deep Reinforcement Learning Networks with a Dynamic
Structured Pruning Method for Autonomous Driving [63.155562267383864]
深部強化学習(DRL)は複雑な自律運転シナリオにおいて顕著な成功を収めている。
DRLモデルは、必然的に高いメモリ消費と計算をもたらし、リソース限定の自動運転デバイスへの広範な展開を妨げる。
そこで本研究では,DRLモデルの非重要なニューロンを段階的に除去する,新しい動的構造化プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T09:00:30Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Unleashing the Power of Pre-trained Language Models for Offline
Reinforcement Learning [54.682106515794864]
オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。
本稿では、オフラインRLに事前学習言語モデル(LM)を使用するための決定変換器に基づく一般的なフレームワークである、$textbfMo$tion Control用の$textbfLanguage Models(textbfLaMo$)を紹介する。
経験的な結果から、$textbfLaMo$はスパース・リワードタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。
SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - Bootstrapped Transformer for Offline Reinforcement Learning [31.43012728924881]
オフライン強化学習(RL)は、以前に収集した静的な軌跡データから実際の環境と相互作用することなく、ポリシーを学習することを目的としている。
最近の研究は、オフラインRLを汎用シーケンス生成問題として見ることによって、新しい視点を提供する。
本稿では,ブートストラップの概念を取り入れたBootstrapped Transformerという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:57:47Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - GST: Group-Sparse Training for Accelerating Deep Reinforcement Learning [0.3674863913115432]
グループスパーストレーニング(GST)と呼ばれるDRLトレーニングアクセラレーションのための新しい重み圧縮法を提案する。
gst は td3 トレーニングによる mujoco halfcheetah-v2 および mujoco humanoid-v2 環境において,反復刈り法よりも 25 %p $sim$ 41.5 %p 高い平均圧縮率を達成する。
論文 参考訳(メタデータ) (2021-01-24T05:52:31Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。