論文の概要: Associative Memory Based Experience Replay for Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2207.07791v1
- Date: Sat, 16 Jul 2022 00:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 19:13:09.751348
- Title: Associative Memory Based Experience Replay for Deep Reinforcement
Learning
- Title(参考訳): 深い強化学習のための連想記憶に基づく体験リプレイ
- Authors: Mengyuan Li, Arman Kazemi, Ann Franchesca Laguna and X. Sharon Hu
- Abstract要約: 優先順位付けされたエクスペリエンスリプレイ(PER)は、DRLエージェントに強力で広くデプロイされていることが証明されている。
PERは、頻繁で不規則なメモリアクセスのために、重大な遅延オーバーヘッドを発生させる。
本稿では,連想メモリ(AM)ベースのPER,AMPERをAMフレンドリな優先サンプリング操作で設計するハードウェア・ソフトウェア共同設計手法を提案する。
- 参考スコア(独自算出の注目度): 6.117098064452361
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Experience replay is an essential component in deep reinforcement learning
(DRL), which stores the experiences and generates experiences for the agent to
learn in real time. Recently, prioritized experience replay (PER) has been
proven to be powerful and widely deployed in DRL agents. However, implementing
PER on traditional CPU or GPU architectures incurs significant latency overhead
due to its frequent and irregular memory accesses. This paper proposes a
hardware-software co-design approach to design an associative memory (AM) based
PER, AMPER, with an AM-friendly priority sampling operation. AMPER replaces the
widely-used time-costly tree-traversal-based priority sampling in PER while
preserving the learning performance. Further, we design an in-memory computing
hardware architecture based on AM to support AMPER by leveraging parallel
in-memory search operations. AMPER shows comparable learning performance while
achieving 55x to 270x latency improvement when running on the proposed hardware
compared to the state-of-the-art PER running on GPU.
- Abstract(参考訳): 体験リプレイは深層強化学習(DRL)において不可欠な要素であり、エージェントがリアルタイムで学習する経験を記憶し、生成する。
近年、優先体験再生(PER)はDRLエージェントに強力で広く展開されていることが証明されている。
しかし、従来のCPUやGPUアーキテクチャにPERを実装すると、頻繁で不規則なメモリアクセスのために大きな遅延オーバーヘッドが発生する。
本稿では,連想メモリ(AM)ベースのPER,AMPERをAMフレンドリな優先サンプリング操作で設計するハードウェア・ソフトウェア共同設計手法を提案する。
AMPERは、学習性能を保ちながらPERで広く使われる時間費用のかかるツリートラバーサルベースの優先度サンプリングを置き換える。
さらに,並列なメモリ内検索操作を活用することで,AMPERをサポートするメモリ内コンピューティングハードウェアアーキテクチャを設計する。
amperは同等の学習性能を示しながら、提案ハードウェア上で実行する場合のレイテンシを、gpu上での実行時の最先端と比較して55倍から270倍向上させる。
関連論文リスト
- APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。
アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。
状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文 参考訳(メタデータ) (2024-12-02T06:57:46Z) - SwiftRL: Towards Efficient Reinforcement Learning on Real Processing-In-Memory Systems [21.133750045141802]
強化学習(RL)は、経験データセットから報酬信号を最大化することにより、エージェントに最適な行動を学ぶように訓練する。
これを解決するために、SwiftRLは、RLワークロードを高速化するために、Processing-In-Memory(PIM)アーキテクチャを調査している。
UPMEM PIM システム上で Tabular Q-learning や SARSA などのRL アルゴリズムを実装し,ニア線形性能のスケーリングを実現する。
論文 参考訳(メタデータ) (2024-05-07T02:54:31Z) - AdaIR: Exploiting Underlying Similarities of Image Restoration Tasks with Adapters [57.62742271140852]
AdaIRは、パフォーマンスを犠牲にすることなく、低コストで効率的なトレーニングを可能にする新しいフレームワークである。
AdaIRは軽量でタスク固有のモジュールのトレーニングのみを必要とし、より効率的なストレージとトレーニング体制を確保する。
論文 参考訳(メタデータ) (2024-04-17T15:31:06Z) - GEAR: A GPU-Centric Experience Replay System for Large Reinforcement
Learning Models [32.23853007467266]
GEARは、大きなシーケンスモデル(トランスなど)でスケーラブルな強化学習(RL)を実現するように設計されている。
ホストメモリへのゼロコピーアクセスを使用してトラジェクトリを収集できるGPUカーネルと、InfiniBand上のリモート指向メモリアクセスを備える。
Gearは、最先端の大規模RLモデルをトレーニングする際に、Reverbよりも最大6倍パフォーマンスレベルを達成することができる。
論文 参考訳(メタデータ) (2023-10-08T15:39:43Z) - Asynchronous Curriculum Experience Replay: A Deep Reinforcement Learning
Approach for UAV Autonomous Motion Control in Unknown Dynamic Environments [2.635402406262781]
無人航空機(UAV)は軍用機として広く使用されている。
マルコフ決定過程(MDP)として自律運動制御(AMC)問題を定式化する。
本稿では,UAVが大規模3次元3次元環境下で複雑なタスクを実行できる高度深部強化学習法を提案する。
論文 参考訳(メタデータ) (2022-07-04T08:19:39Z) - Memory-efficient Reinforcement Learning with Value-based Knowledge
Consolidation [14.36005088171571]
本稿では,深部Q-networkアルゴリズムに基づくメモリ効率向上学習アルゴリズムを提案する。
提案アルゴリズムは,対象のQネットワークから現在のQネットワークへの知識の統合により,高いサンプル効率を低下させる。
論文 参考訳(メタデータ) (2022-05-22T17:02:51Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。