論文の概要: GST: Group-Sparse Training for Accelerating Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2101.09650v1
- Date: Sun, 24 Jan 2021 05:52:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 09:12:48.910901
- Title: GST: Group-Sparse Training for Accelerating Deep Reinforcement Learning
- Title(参考訳): GST:Deep Reinforcement Learningを加速するためのグループスパーストレーニング
- Authors: Juhyoung Lee, Sangyeob Kim, Sangjin Kim, Wooyoung Jo, Hoi-Jun Yoo
- Abstract要約: グループスパーストレーニング(GST)と呼ばれるDRLトレーニングアクセラレーションのための新しい重み圧縮法を提案する。
gst は td3 トレーニングによる mujoco halfcheetah-v2 および mujoco humanoid-v2 環境において,反復刈り法よりも 25 %p $sim$ 41.5 %p 高い平均圧縮率を達成する。
- 参考スコア(独自算出の注目度): 0.3674863913115432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) has shown remarkable success in sequential
decision-making problems but suffers from a long training time to obtain such
good performance. Many parallel and distributed DRL training approaches have
been proposed to solve this problem, but it is difficult to utilize them on
resource-limited devices. In order to accelerate DRL in real-world edge
devices, memory bandwidth bottlenecks due to large weight transactions have to
be resolved. However, previous iterative pruning not only shows a low
compression ratio at the beginning of training but also makes DRL training
unstable. To overcome these shortcomings, we propose a novel weight compression
method for DRL training acceleration, named group-sparse training (GST). GST
selectively utilizes block-circulant compression to maintain a high weight
compression ratio during all iterations of DRL training and dynamically adapt
target sparsity through reward-aware pruning for stable training. Thanks to the
features, GST achieves a 25 \%p $\sim$ 41.5 \%p higher average compression
ratio than the iterative pruning method without reward drop in Mujoco
Halfcheetah-v2 and Mujoco humanoid-v2 environment with TD3 training.
- Abstract(参考訳): 深層強化学習(DRL)は、連続的な意思決定問題で顕著な成功を収めていますが、そのような優れたパフォーマンスを得るために長いトレーニング時間に苦しんでいます。
この問題を解決するために,多数の並列分散DRLトレーニング手法が提案されているが,資源限定デバイスでの利用は困難である。
現実世界のエッジデバイスでDRLを加速するためには、大容量のトランザクションによるメモリ帯域幅のボトルネックを解決する必要がある。
しかし, 従来の反復刈りは, トレーニング開始時に低圧縮率を示すだけでなく, DRLトレーニングを不安定にする。
これらの欠点を克服するために,グループスパーストレーニング(GST)と呼ばれるDRLトレーニングアクセラレーションのための新しい重み圧縮手法を提案する。
GSTはブロック循環圧縮を選択的に利用し、DRLトレーニングの全てのイテレーションにおいて高い重量圧縮比を維持し、安定したトレーニングのために報酬認識プルーニングを通じて目標空間を動的に適応する。
この特徴により、gst は td3 トレーニングによる mujoco halfcheetah-v2 および mujoco humanoid-v2 環境において、反復的プルーニング法よりも 25 \%p $\sim$ 41.5 \%p 高い平均圧縮率を達成している。
関連論文リスト
- PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Compressing Deep Reinforcement Learning Networks with a Dynamic
Structured Pruning Method for Autonomous Driving [63.155562267383864]
深部強化学習(DRL)は複雑な自律運転シナリオにおいて顕著な成功を収めている。
DRLモデルは、必然的に高いメモリ消費と計算をもたらし、リソース限定の自動運転デバイスへの広範な展開を妨げる。
そこで本研究では,DRLモデルの非重要なニューロンを段階的に除去する,新しい動的構造化プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T09:00:30Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - Efficient Adversarial Training without Attacking: Worst-Case-Aware
Robust Reinforcement Learning [14.702446153750497]
Worst-case-aware Robust RL (WocaR-RL) は、深層強化学習のための堅牢なトレーニングフレームワークである。
我々は,WocaR-RLが様々な攻撃により最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2022-10-12T05:24:46Z) - RLx2: Training a Sparse Deep Reinforcement Learning Model from Scratch [23.104546205134103]
深層強化学習(DRL)モデルの訓練は通常、高いコストを必要とする。
DRLモデルの圧縮は、トレーニングアクセラレーションとモデル展開に大きな可能性を秘めている。
我々は,「textbfRigged textbfReinforcement textbfLearning textbfLottery (RLx2) 」という,新しいスパースDRLトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T12:18:43Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Pretraining & Reinforcement Learning: Sharpening the Axe Before Cutting
the Tree [2.0142516017086165]
プレトレーニングは、パフォーマンスを高め、トレーニング時間を短縮するためのディープラーニングの一般的なテクニックである。
大規模かつ公開可能なデータセットとケースバイケース生成データセットを用いて,RLタスクの事前学習の有効性を評価した。
その結果、関連するデータセットのトレーニング中に学んだフィルタが事前トレーニングを非効率にするのに対して、分散データセットのトレーニング中に学んだフィルタは、RLトレーニング時間を確実に短縮し、80k RLトレーニングステップ後のパフォーマンスを改善することが示唆された。
論文 参考訳(メタデータ) (2021-10-06T04:25:14Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。