論文の概要: AcceRL: Policy Acceleration Framework for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.15023v1
- Date: Mon, 28 Nov 2022 03:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:47:46.171331
- Title: AcceRL: Policy Acceleration Framework for Deep Reinforcement Learning
- Title(参考訳): AcceRL: 深層強化学習のための政策加速フレームワーク
- Authors: Hongjie Zhang
- Abstract要約: AcceRLはActor、Learner、V-Trace、Corrector、Monitorの5つのコンポーネントで構成されている。
AcceRLは従来の方法に比べてトレーニング時間を約29.8%削減して40.3%に短縮する。
- 参考スコア(独自算出の注目度): 1.4467794332678539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning has achieved great success in various fields with
its super decision-making ability. However, the policy learning process
requires a large amount of training time, causing energy consumption. Inspired
by the redundancy of neural networks, we propose a lightweight parallel
training framework based on neural network compression, AcceRL, to accelerate
the policy learning while ensuring policy quality. Specifically, AcceRL speeds
up the experience collection by flexibly combining various neural network
compression methods. Overall, the AcceRL consists of five components, namely
Actor, Learner, Compressor, Corrector, and Monitor. The Actor uses the
Compressor to compress the Learner's policy network to interact with the
environment. And the generated experiences are transformed by the Corrector
with Off-Policy methods, such as V-trace, Retrace and so on. Then the corrected
experiences are feed to the Learner for policy learning. We believe this is the
first general reinforcement learning framework that incorporates multiple
neural network compression techniques. Extensive experiments conducted in gym
show that the AcceRL reduces the time cost of the actor by about 2.0 X to 4.13
X compared to the traditional methods. Furthermore, the AcceRL reduces the
whole training time by about 29.8% to 40.3% compared to the traditional methods
while keeps the same policy quality.
- Abstract(参考訳): 深層強化学習はその超意思決定能力で様々な分野で大きな成功を収めた。
しかし、政策学習プロセスは大量の訓練時間を必要とし、エネルギー消費を引き起こす。
ニューラルネットワークの冗長性に触発されて,ニューラルネットワーク圧縮に基づく軽量並列学習フレームワーク accerl を提案する。
具体的には、さまざまなニューラルネットワーク圧縮手法を柔軟に組み合わせて、経験収集を高速化する。
全体としてaccerlはアクタ、学習者、圧縮機、補正器、モニターの5つのコンポーネントで構成されている。
アクターはコンプレッサーを使用して学習者のポリシーネットワークを圧縮し、環境と対話する。
そして生成されたエクスペリエンスは、v-trace、retraceなどのオフポリシーメソッドによる修正子によって変換される。
そして、修正された経験を学習者に与えてポリシー学習を行う。
これは、複数のニューラルネットワーク圧縮技術を組み込んだ最初の汎用強化学習フレームワークであると考えています。
体育館で行われた大規模な実験では、AceRLは従来の方法と比較してアクターの時間コストを約2.0Xから4.13Xに削減している。
さらに、AceRLは従来の方法と比較してトレーニング全体の時間を29.8%から40.3%削減し、同じポリシー品質を維持している。
関連論文リスト
- Entropy Regularized Reinforcement Learning with Cascading Networks [9.973226671536041]
Deep RLは関数近似器としてニューラルネットワークを使用する。
RLの大きな難しさの1つは、i.i.d.データの欠如である。
本研究では,ニューラルネットワークを用いた教師なし学習コミュニティの共通実践に挑戦する。
論文 参考訳(メタデータ) (2022-10-16T10:28:59Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Hybrid Learning for Orchestrating Deep Learning Inference in Multi-user
Edge-cloud Networks [3.7630209350186807]
ディープラーニングのためのコラボレーション型のエッジクラウドコンピューティングは、さまざまなパフォーマンスと効率を提供する。
ディープラーニング推論オーケストレーション戦略では、最適なオーケストレーションポリシを見つけるために強化学習を採用している。
我々は、最先端のRLベースの推論オーケストレーションを実験的に比較することで、HL戦略の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-21T21:50:50Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - DECORE: Deep Compression with Reinforcement Learning [7.662713970764377]
本稿では,ネットワーク圧縮プロセスを自動化する強化学習手法であるDECOREを提案する。
他のアーキテクチャ検索手法とは対照的に、DECOREはシンプルで高速にトレーニングでき、1GPU上でのトレーニングに数時間しか必要としない。
論文 参考訳(メタデータ) (2021-06-11T00:03:41Z) - A novel policy for pre-trained Deep Reinforcement Learning for Speech
Emotion Recognition [8.175197257598697]
Reinforcement Learning(RL)は、エージェントが環境と相互作用することによって学習する半教師付き学習パラダイムです。
ディープRLはAlphaGoのようなゲームで大成功を収めてきたが、音声感情認識(SER)のような挑戦的なタスクのためにその可能性を探ることはめったにない。
本稿では、SERに適した新しいポリシー「ゼタポリシー」を導入し、より高速な学習率を達成するために深部RLでの事前学習を適用する。
論文 参考訳(メタデータ) (2021-01-04T02:13:26Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。