論文の概要: RAPID-RL: A Reconfigurable Architecture with Preemptive-Exits for
Efficient Deep-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.08231v1
- Date: Thu, 16 Sep 2021 21:30:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:36:50.688446
- Title: RAPID-RL: A Reconfigurable Architecture with Preemptive-Exits for
Efficient Deep-Reinforcement Learning
- Title(参考訳): RAPID-RL:効率的な深層強化学習のためのプリエンプティブエグゼクトを持つ再構成可能なアーキテクチャ
- Authors: Adarsh Kumar Kosta, Malik Aqeel Anwar, Priyadarshini Panda, Arijit
Raychowdhury, and Kaushik Roy
- Abstract要約: 効率的な深部RL(RAPID-RL)のためのプリエンプティブ出口を持つ再構成可能なアーキテクチャを提案する。
RAPID-RLは入力の難易度に基づいてプリエンプティブ層の条件付き活性化を可能にする。
RAPID-RL は Atari (Drone Navigation) タスクにおいて 0.88x (0.91x) 以上の性能を維持しながら, 演算数 0.34x (0.25x) を発生させることを示す。
- 参考スコア(独自算出の注目度): 7.990007201671364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Present-day Deep Reinforcement Learning (RL) systems show great promise
towards building intelligent agents surpassing human-level performance.
However, the computational complexity associated with the underlying deep
neural networks (DNNs) leads to power-hungry implementations. This makes deep
RL systems unsuitable for deployment on resource-constrained edge devices. To
address this challenge, we propose a reconfigurable architecture with
preemptive exits for efficient deep RL (RAPID-RL). RAPID-RL enables conditional
activation of DNN layers based on the difficulty level of inputs. This allows
to dynamically adjust the compute effort during inference while maintaining
competitive performance. We achieve this by augmenting a deep Q-network (DQN)
with side-branches capable of generating intermediate predictions along with an
associated confidence score. We also propose a novel training methodology for
learning the actions and branch confidence scores in a dynamic RL setting. Our
experiments evaluate the proposed framework for Atari 2600 gaming tasks and a
realistic Drone navigation task on an open-source drone simulator (PEDRA). We
show that RAPID-RL incurs 0.34x (0.25x) number of operations (OPS) while
maintaining performance above 0.88x (0.91x) on Atari (Drone navigation) tasks,
compared to a baseline-DQN without any side-branches. The reduction in OPS
leads to fast and efficient inference, proving to be highly beneficial for the
resource-constrained edge where making quick decisions with minimal compute is
essential.
- Abstract(参考訳): 現在の深層強化学習(Deep Reinforcement Learning, RL)システムでは,人間レベルのパフォーマンスを超えたインテリジェントエージェントの構築が期待できる。
しかし、基礎となるディープニューラルネットワーク(DNN)に関連する計算複雑性は、パワーハングリーの実装につながる。
これにより、deep rlシステムはリソース制約のあるエッジデバイスへのデプロイに適さない。
この課題に対処するために,RAPID-RL (RAPID-RL) のためのプリエンプティブ出口を持つ再構成可能なアーキテクチャを提案する。
RAPID-RLは入力の難易度に基づいてDNN層の条件付き活性化を可能にする。
これにより、競合性能を維持しながら、推論中の計算労力を動的に調整できる。
これを実現するために、サイドブランチによる深層Qネットワーク(DQN)を、関連する信頼スコアとともに中間予測を生成する。
また,動的RL環境下での動作と分岐信頼度を学習するための新しい学習手法を提案する。
実験では,オープンソースのドローンシミュレータ(PEDRA)上でのAtari 2600ゲームタスクと現実的なドローンナビゲーションタスクのフレームワークについて検討した。
RAPID-RLは, サイドブランチのないベースラインDQNと比較して, Atariタスクの0.88x (0.91x) 以上の性能を維持しつつ, 0.34x (0.25x) 演算数(OPS)を発生させることを示した。
OPSの削減は高速かつ効率的な推論をもたらし、最小限の計算で迅速な決定を行うリソース制約エッジにとって非常に有益であることが証明された。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - DNN Partitioning, Task Offloading, and Resource Allocation in Dynamic Vehicular Networks: A Lyapunov-Guided Diffusion-Based Reinforcement Learning Approach [49.56404236394601]
本稿では,Vehicular Edge Computingにおける共同DNNパーティショニング,タスクオフロード,リソース割り当ての問題を定式化する。
我々の目標は、時間とともにシステムの安定性を保証しながら、DNNベースのタスク完了時間を最小化することである。
拡散モデルの革新的利用を取り入れたマルチエージェント拡散に基づく深層強化学習(MAD2RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T06:31:03Z) - Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文 参考訳(メタデータ) (2022-01-26T20:43:13Z) - Deep Reinforcement Learning with Spiking Q-learning [51.386945803485084]
スパイクニューラルネットワーク(SNN)は、少ないエネルギー消費で人工知能(AI)を実現することが期待されている。
SNNと深部強化学習(RL)を組み合わせることで、現実的な制御タスクに有望なエネルギー効率の方法を提供する。
論文 参考訳(メタデータ) (2022-01-21T16:42:11Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Deep Reinforcement Learning with Population-Coded Spiking Neural Network
for Continuous Control [0.0]
深層強化学習(DRL)を用いた深層批評家ネットワークと連携して訓練された集団符号化スパイキングアクターネットワーク(PopSAN)を提案する。
我々は、トレーニング済みのPopSANをIntelのLoihiニューロモルフィックチップにデプロイし、本手法をメインストリームのDRLアルゴリズムと比較し、連続的な制御を行った。
本研究はニューロモルフィックコントローラの効率性をサポートし,エネルギー効率とロバスト性の両方が重要である場合,我々のハイブリッドRLをディープラーニングの代替として提案する。
論文 参考訳(メタデータ) (2020-10-19T16:20:45Z) - GOAT: GPU Outsourcing of Deep Learning Training With Asynchronous
Probabilistic Integrity Verification Inside Trusted Execution Environment [0.0]
Deep Neural Networks(DNN)に基づく機械学習モデルは、自動運転車から新型コロナウイルスの治療発見まで、さまざまなアプリケーションにますます導入されている。
DNNを学習するために必要な計算能力をサポートするために、専用のハードウェアサポートを備えたクラウド環境が重要なインフラストラクチャとして登場した。
これらの課題に対処する様々なアプローチが開発され、信頼できる実行環境(TEE)上に構築されている。
論文 参考訳(メタデータ) (2020-10-17T20:09:05Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - PoPS: Policy Pruning and Shrinking for Deep Reinforcement Learning [16.269923100433232]
DRLモデルを高い性能で訓練するための,PoPS(Po Policy Pruning and Shrinking)と呼ばれる作業アルゴリズムを開発した。
PoPSは、トランスファーラーニングの力を利用する、新しい反復的なポリシープルーニングと縮小法に基づいている。
本稿では,一般的なCartpole環境,Lunar Lander環境,Pong環境,Pacman環境を用いて,PoPSの強い性能を示す実験を行った。
論文 参考訳(メタデータ) (2020-01-14T19:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。