論文の概要: Associative Memory Based Experience Replay for Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2207.07791v1
- Date: Sat, 16 Jul 2022 00:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 19:13:09.751348
- Title: Associative Memory Based Experience Replay for Deep Reinforcement
Learning
- Title(参考訳): 深い強化学習のための連想記憶に基づく体験リプレイ
- Authors: Mengyuan Li, Arman Kazemi, Ann Franchesca Laguna and X. Sharon Hu
- Abstract要約: 優先順位付けされたエクスペリエンスリプレイ(PER)は、DRLエージェントに強力で広くデプロイされていることが証明されている。
PERは、頻繁で不規則なメモリアクセスのために、重大な遅延オーバーヘッドを発生させる。
本稿では,連想メモリ(AM)ベースのPER,AMPERをAMフレンドリな優先サンプリング操作で設計するハードウェア・ソフトウェア共同設計手法を提案する。
- 参考スコア(独自算出の注目度): 6.117098064452361
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Experience replay is an essential component in deep reinforcement learning
(DRL), which stores the experiences and generates experiences for the agent to
learn in real time. Recently, prioritized experience replay (PER) has been
proven to be powerful and widely deployed in DRL agents. However, implementing
PER on traditional CPU or GPU architectures incurs significant latency overhead
due to its frequent and irregular memory accesses. This paper proposes a
hardware-software co-design approach to design an associative memory (AM) based
PER, AMPER, with an AM-friendly priority sampling operation. AMPER replaces the
widely-used time-costly tree-traversal-based priority sampling in PER while
preserving the learning performance. Further, we design an in-memory computing
hardware architecture based on AM to support AMPER by leveraging parallel
in-memory search operations. AMPER shows comparable learning performance while
achieving 55x to 270x latency improvement when running on the proposed hardware
compared to the state-of-the-art PER running on GPU.
- Abstract(参考訳): 体験リプレイは深層強化学習(DRL)において不可欠な要素であり、エージェントがリアルタイムで学習する経験を記憶し、生成する。
近年、優先体験再生(PER)はDRLエージェントに強力で広く展開されていることが証明されている。
しかし、従来のCPUやGPUアーキテクチャにPERを実装すると、頻繁で不規則なメモリアクセスのために大きな遅延オーバーヘッドが発生する。
本稿では,連想メモリ(AM)ベースのPER,AMPERをAMフレンドリな優先サンプリング操作で設計するハードウェア・ソフトウェア共同設計手法を提案する。
AMPERは、学習性能を保ちながらPERで広く使われる時間費用のかかるツリートラバーサルベースの優先度サンプリングを置き換える。
さらに,並列なメモリ内検索操作を活用することで,AMPERをサポートするメモリ内コンピューティングハードウェアアーキテクチャを設計する。
amperは同等の学習性能を示しながら、提案ハードウェア上で実行する場合のレイテンシを、gpu上での実行時の最先端と比較して55倍から270倍向上させる。
関連論文リスト
- SwiftRL: Towards Efficient Reinforcement Learning on Real Processing-In-Memory Systems [21.133750045141802]
強化学習(RL)は、経験データセットから報酬信号を最大化することにより、エージェントに最適な行動を学ぶように訓練する。
これを解決するために、SwiftRLは、RLワークロードを高速化するために、Processing-In-Memory(PIM)アーキテクチャを調査している。
UPMEM PIM システム上で Tabular Q-learning や SARSA などのRL アルゴリズムを実装し,ニア線形性能のスケーリングを実現する。
論文 参考訳(メタデータ) (2024-05-07T02:54:31Z) - AdaIR: Exploiting Underlying Similarities of Image Restoration Tasks with Adapters [57.62742271140852]
AdaIRは、パフォーマンスを犠牲にすることなく、低コストで効率的なトレーニングを可能にする新しいフレームワークである。
AdaIRは軽量でタスク固有のモジュールのトレーニングのみを必要とし、より効率的なストレージとトレーニング体制を確保する。
論文 参考訳(メタデータ) (2024-04-17T15:31:06Z) - GEAR: A GPU-Centric Experience Replay System for Large Reinforcement
Learning Models [32.23853007467266]
GEARは、大きなシーケンスモデル(トランスなど)でスケーラブルな強化学習(RL)を実現するように設計されている。
ホストメモリへのゼロコピーアクセスを使用してトラジェクトリを収集できるGPUカーネルと、InfiniBand上のリモート指向メモリアクセスを備える。
Gearは、最先端の大規模RLモデルをトレーニングする際に、Reverbよりも最大6倍パフォーマンスレベルを達成することができる。
論文 参考訳(メタデータ) (2023-10-08T15:39:43Z) - Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals [69.76245723797368]
Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。
各種RLアルゴリズムは,設計支援による性能向上とトレーニング速度の向上を実現している。
論文 参考訳(メタデータ) (2023-02-09T05:47:03Z) - Asynchronous Curriculum Experience Replay: A Deep Reinforcement Learning
Approach for UAV Autonomous Motion Control in Unknown Dynamic Environments [2.635402406262781]
無人航空機(UAV)は軍用機として広く使用されている。
マルコフ決定過程(MDP)として自律運動制御(AMC)問題を定式化する。
本稿では,UAVが大規模3次元3次元環境下で複雑なタスクを実行できる高度深部強化学習法を提案する。
論文 参考訳(メタデータ) (2022-07-04T08:19:39Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - Memory-efficient Reinforcement Learning with Value-based Knowledge
Consolidation [14.36005088171571]
本稿では,深部Q-networkアルゴリズムに基づくメモリ効率向上学習アルゴリズムを提案する。
提案アルゴリズムは,対象のQネットワークから現在のQネットワークへの知識の統合により,高いサンプル効率を低下させる。
論文 参考訳(メタデータ) (2022-05-22T17:02:51Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。