論文の概要: Compressing Deep Reinforcement Learning Networks with a Dynamic
Structured Pruning Method for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2402.05146v1
- Date: Wed, 7 Feb 2024 09:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:59:03.442634
- Title: Compressing Deep Reinforcement Learning Networks with a Dynamic
Structured Pruning Method for Autonomous Driving
- Title(参考訳): 自律走行のための動的構造化プルーニング法を用いた深部強化学習ネットワークの圧縮
- Authors: Wensheng Su, Zhenni Li, Minrui Xu, Jiawen Kang, Dusit Niyato, Shengli
Xie
- Abstract要約: 深部強化学習(DRL)は複雑な自律運転シナリオにおいて顕著な成功を収めている。
DRLモデルは、必然的に高いメモリ消費と計算をもたらし、リソース限定の自動運転デバイスへの広範な展開を妨げる。
そこで本研究では,DRLモデルの非重要なニューロンを段階的に除去する,新しい動的構造化プルーニング手法を提案する。
- 参考スコア(独自算出の注目度): 63.155562267383864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) has shown remarkable success in complex
autonomous driving scenarios. However, DRL models inevitably bring high memory
consumption and computation, which hinders their wide deployment in
resource-limited autonomous driving devices. Structured Pruning has been
recognized as a useful method to compress and accelerate DRL models, but it is
still challenging to estimate the contribution of a parameter (i.e., neuron) to
DRL models. In this paper, we introduce a novel dynamic structured pruning
approach that gradually removes a DRL model's unimportant neurons during the
training stage. Our method consists of two steps, i.e. training DRL models with
a group sparse regularizer and removing unimportant neurons with a dynamic
pruning threshold. To efficiently train the DRL model with a small number of
important neurons, we employ a neuron-importance group sparse regularizer. In
contrast to conventional regularizers, this regularizer imposes a penalty on
redundant groups of neurons that do not significantly influence the output of
the DRL model. Furthermore, we design a novel structured pruning strategy to
dynamically determine the pruning threshold and gradually remove unimportant
neurons with a binary mask. Therefore, our method can remove not only redundant
groups of neurons of the DRL model but also achieve high and robust
performance. Experimental results show that the proposed method is competitive
with existing DRL pruning methods on discrete control environments (i.e.,
CartPole-v1 and LunarLander-v2) and MuJoCo continuous environments (i.e.,
Hopper-v3 and Walker2D-v3). Specifically, our method effectively compresses
$93\%$ neurons and $96\%$ weights of the DRL model in four challenging DRL
environments with slight accuracy degradation.
- Abstract(参考訳): 深部強化学習(DRL)は複雑な自律運転シナリオにおいて顕著な成功を収めている。
しかし、DRLモデルは必然的に高いメモリ消費と計算をもたらし、リソース制限の自律運転装置への広範な展開を妨げる。
構造化プルーニングはDRLモデルを圧縮・加速する有用な方法として認識されているが、DRLモデルへのパラメータ(ニューロン)の寄与を推定することは依然として難しい。
本稿では,drlモデルの非重要ニューロンを訓練段階で徐々に除去する,新しい動的構造的プルーニング手法を提案する。
本手法は,グループスパース正規化器を用いたDRLモデルのトレーニングと,動的プルーニング閾値による非重要ニューロンの除去という2つのステップからなる。
DRLモデルを少数の重要なニューロンで効率的に訓練するために,ニューロン重要群スパース正規化器を用いる。
従来の正規化器とは対照的に、この正規化器はDRLモデルの出力に大きな影響を与えない冗長なニューロン群にペナルティを課す。
さらに,2次マスクを用いて動的にプルーニング閾値を判定し,重要でないニューロンを徐々に除去する新しい構造化プルーニング戦略を設計する。
そこで本手法は,DRLモデルの冗長なニューロン群を除去するだけでなく,高い,堅牢な性能を実現する。
実験の結果,提案手法は従来のDRLプルーニング法(CartPole-v1およびLunarLander-v2)およびMuJoCo連続環境(Hopper-v3およびWalker2D-v3)と競合することがわかった。
具体的には, DRLモデルにおいて, 93\%のニューロンと 96\%の重量を, わずかに精度を低下させることなく, 4つのDRL環境において効果的に圧縮する。
関連論文リスト
- The Impact of Quantization and Pruning on Deep Reinforcement Learning Models [1.5252729367921107]
深層強化学習(DRL)は、ビデオゲーム、ロボティクス、近年の大規模言語モデルなど、様々な領域で顕著な成功を収めている。
しかし、DRLモデルの計算コストとメモリ要求はリソース制約された環境への展開を制限することが多い。
本研究では,DRLモデルに対する量子化とプルーニングという2つの顕著な圧縮手法の影響について検討した。
論文 参考訳(メタデータ) (2024-07-05T18:21:17Z) - A Real-World Quadrupedal Locomotion Benchmark for Offline Reinforcement
Learning [27.00483962026472]
現実的な四足歩行データセットにおける11のオフライン強化学習アルゴリズムをベンチマークした。
実験の結果,ORLアルゴリズムはモデルフリーのRLに比べて競争性能がよいことがわかった。
提案するベンチマークは,実世界の歩行作業におけるORLアルゴリズムの性能をテスト・評価するための開発プラットフォームとして機能する。
論文 参考訳(メタデータ) (2023-09-13T13:18:29Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Turbulence control in plane Couette flow using low-dimensional neural
ODE-based models and deep reinforcement learning [0.0]
DManD-RL (data-driven manifold dynamics-RL) は,データ駆動型低次元モデルを生成する。
我々はRL制御エージェントを訓練し、数値シミュレーションで440倍のスピードアップを達成した。
エージェントは900時間以内の未確認DNSテストトラジェクトリの84%をラミナライズするポリシーを学習する。
論文 参考訳(メタデータ) (2023-01-28T05:47:10Z) - RLx2: Training a Sparse Deep Reinforcement Learning Model from Scratch [23.104546205134103]
深層強化学習(DRL)モデルの訓練は通常、高いコストを必要とする。
DRLモデルの圧縮は、トレーニングアクセラレーションとモデル展開に大きな可能性を秘めている。
我々は,「textbfRigged textbfReinforcement textbfLearning textbfLottery (RLx2) 」という,新しいスパースDRLトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T12:18:43Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Federated Deep Reinforcement Learning for the Distributed Control of
NextG Wireless Networks [16.12495409295754]
次世代(NextG)ネットワークは、拡張現実(AR)やコネクテッド・自律走行車といった、インターネットの触覚を必要とするアプリケーションをサポートすることが期待されている。
データ駆動アプローチは、現在の運用条件に適応するネットワークの能力を改善することができる。
深部RL(DRL)は複雑な環境においても良好な性能を発揮することが示されている。
論文 参考訳(メタデータ) (2021-12-07T03:13:20Z) - Recurrent Model-Free RL is a Strong Baseline for Many POMDPs [73.39666827525782]
メタRL、ロバストRL、RLの一般化など、RLの多くの問題はPOMDPとしてキャストできる。
理論上は、リカレントニューラルネットワークなどのメモリによるモデルフリーRLの増大は、あらゆるタイプのPOMDPを解決するための一般的なアプローチを提供する。
以前の研究で、そのような繰り返しモデルなしのRL法は、特定のタイプのPOMDP向けに設計された、より特殊なアルゴリズムよりもパフォーマンスが悪くなっていることが判明した。
論文 参考訳(メタデータ) (2021-10-11T07:09:14Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。