論文の概要: PoPS: Policy Pruning and Shrinking for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2001.05012v1
- Date: Tue, 14 Jan 2020 19:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 11:57:52.913151
- Title: PoPS: Policy Pruning and Shrinking for Deep Reinforcement Learning
- Title(参考訳): PoPS: 深層強化学習のための政策計画と削減
- Authors: Dor Livne and Kobi Cohen
- Abstract要約: DRLモデルを高い性能で訓練するための,PoPS(Po Policy Pruning and Shrinking)と呼ばれる作業アルゴリズムを開発した。
PoPSは、トランスファーラーニングの力を利用する、新しい反復的なポリシープルーニングと縮小法に基づいている。
本稿では,一般的なCartpole環境,Lunar Lander環境,Pong環境,Pacman環境を用いて,PoPSの強い性能を示す実験を行った。
- 参考スコア(独自算出の注目度): 16.269923100433232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent success of deep neural networks (DNNs) for function approximation
in reinforcement learning has triggered the development of Deep Reinforcement
Learning (DRL) algorithms in various fields, such as robotics, computer games,
natural language processing, computer vision, sensing systems, and wireless
networking. Unfortunately, DNNs suffer from high computational cost and memory
consumption, which limits the use of DRL algorithms in systems with limited
hardware resources. In recent years, pruning algorithms have demonstrated
considerable success in reducing the redundancy of DNNs in classification
tasks. However, existing algorithms suffer from a significant performance
reduction in the DRL domain. In this paper, we develop the first effective
solution to the performance reduction problem of pruning in the DRL domain, and
establish a working algorithm, named Policy Pruning and Shrinking (PoPS), to
train DRL models with strong performance while achieving a compact
representation of the DNN. The framework is based on a novel iterative policy
pruning and shrinking method that leverages the power of transfer learning when
training the DRL model. We present an extensive experimental study that
demonstrates the strong performance of PoPS using the popular Cartpole, Lunar
Lander, Pong, and Pacman environments. Finally, we develop an open source
software for the benefit of researchers and developers in related fields.
- Abstract(参考訳): 近年、強化学習における関数近似のためのディープニューラルネットワーク(DNN)の成功により、ロボット工学、コンピュータゲーム、自然言語処理、コンピュータビジョン、センシングシステム、無線ネットワークなど、さまざまな分野におけるディープ強化学習(DRL)アルゴリズムの開発が進められている。
残念ながら、DNNは高い計算コストとメモリ消費に悩まされており、ハードウェアリソースが限られているシステムにおけるDRLアルゴリズムの使用を制限する。
近年,分類タスクにおけるDNNの冗長性を低減するために,プルーニングアルゴリズムが大きな成功を収めている。
しかし、既存のアルゴリズムはDRLドメインの大幅な性能低下に悩まされている。
本稿では、DRL領域におけるプルーニングの性能低下問題に対する最初の効果的な解法を開発し、DNNのコンパクトな表現を達成しつつ、強力な性能でDRLモデルを訓練する、PoPS(Physal Pruning and Shrinking)と呼ばれる作業アルゴリズムを確立する。
このフレームワークは、DRLモデルをトレーニングする際の伝達学習のパワーを利用する、新しい反復的なポリシープルーニングと縮小法に基づいている。
本稿では,一般的なCartpole環境,Lunar Lander環境,Pong環境,Pacman環境を用いて,PoPSの強い性能を示す実験を行った。
最後に,関連分野の研究者や開発者の利益のために,オープンソースソフトウェアを開発する。
関連論文リスト
- Broad Critic Deep Actor Reinforcement Learning for Continuous Control [5.440090782797941]
アクター批判強化学習(RL)アルゴリズムのための新しいハイブリッドアーキテクチャを提案する。
提案したアーキテクチャは、広範学習システム(BLS)とディープニューラルネットワーク(DNN)を統合している。
提案アルゴリズムの有効性を2つの古典的連続制御タスクに適用することにより評価する。
論文 参考訳(メタデータ) (2024-11-24T12:24:46Z) - DNN Partitioning, Task Offloading, and Resource Allocation in Dynamic Vehicular Networks: A Lyapunov-Guided Diffusion-Based Reinforcement Learning Approach [49.56404236394601]
本稿では,Vehicular Edge Computingにおける共同DNNパーティショニング,タスクオフロード,リソース割り当ての問題を定式化する。
我々の目標は、時間とともにシステムの安定性を保証しながら、DNNベースのタスク完了時間を最小化することである。
拡散モデルの革新的利用を取り入れたマルチエージェント拡散に基づく深層強化学習(MAD2RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T06:31:03Z) - Generative AI for Deep Reinforcement Learning: Framework, Analysis, and Use Cases [60.30995339585003]
深部強化学習(DRL)は様々な分野に広く適用されており、優れた成果を上げている。
DRLは、サンプル効率の低下や一般化の低さなど、いくつかの制限に直面している。
本稿では、これらの問題に対処し、DRLアルゴリズムの性能を向上させるために、生成AI(GAI)を活用する方法について述べる。
論文 参考訳(メタデータ) (2024-05-31T01:25:40Z) - Snapshot Reinforcement Learning: Leveraging Prior Trajectories for
Efficiency [6.267119107674013]
深部強化学習(DRL)アルゴリズムは、高い性能を達成するために、かなりのサンプルと計算資源を必要とする。
本稿では,環境変更によるサンプル効率の向上を目的としたSnapshot Reinforcement Learningフレームワークを提案する。
本稿では,既存のDRLアルゴリズムとよく統合された,シンプルで効果的なSnapshotRLベースラインアルゴリズムS3RLを提案する。
論文 参考訳(メタデータ) (2024-03-01T17:05:22Z) - A Review of Deep Reinforcement Learning in Serverless Computing:
Function Scheduling and Resource Auto-Scaling [2.0722667822370386]
本稿では、サーバーレスコンピューティングにおけるDeep Reinforcement Learning(DRL)技術の適用について、包括的なレビューを行う。
DRLをサーバレスコンピューティングに適用する最近の研究の体系的なレビューが、さまざまなアルゴリズム、モデル、パフォーマンスについて紹介されている。
分析の結果,DRLは環境から学習・適応する能力を有しており,機能スケジューリングと資源スケーリングの効率化に期待できる結果が得られた。
論文 参考訳(メタデータ) (2023-10-05T09:26:04Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - A Low Latency Adaptive Coding Spiking Framework for Deep Reinforcement Learning [27.558298367330053]
本稿では,学習可能な行列乗法を用いてスパイクのエンコードとデコードを行い,コーダの柔軟性を向上させる。
直接学習法を用いてSNNを訓練し、オンラインとオフラインのRLアルゴリズムに2つの異なる構造を用いる。
実験の結果,超低レイテンシで最適性能を実現し,エネルギー効率に優れることがわかった。
論文 参考訳(メタデータ) (2022-11-21T07:26:56Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Deep Reinforcement Learning with Population-Coded Spiking Neural Network
for Continuous Control [0.0]
深層強化学習(DRL)を用いた深層批評家ネットワークと連携して訓練された集団符号化スパイキングアクターネットワーク(PopSAN)を提案する。
我々は、トレーニング済みのPopSANをIntelのLoihiニューロモルフィックチップにデプロイし、本手法をメインストリームのDRLアルゴリズムと比較し、連続的な制御を行った。
本研究はニューロモルフィックコントローラの効率性をサポートし,エネルギー効率とロバスト性の両方が重要である場合,我々のハイブリッドRLをディープラーニングの代替として提案する。
論文 参考訳(メタデータ) (2020-10-19T16:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。