Fugu-MT 論文翻訳(概要): Associative Memory Based Experience Replay for Deep Reinforcement Learning

論文の概要: Associative Memory Based Experience Replay for Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2207.07791v1
Date: Sat, 16 Jul 2022 00:12:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-19 19:13:09.751348
Title: Associative Memory Based Experience Replay for Deep Reinforcement Learning
Title（参考訳）: 深い強化学習のための連想記憶に基づく体験リプレイ
Authors: Mengyuan Li, Arman Kazemi, Ann Franchesca Laguna and X. Sharon Hu
Abstract要約: 優先順位付けされたエクスペリエンスリプレイ(PER)は、DRLエージェントに強力で広くデプロイされていることが証明されている。 PERは、頻繁で不規則なメモリアクセスのために、重大な遅延オーバーヘッドを発生させる。本稿では,連想メモリ(AM)ベースのPER,AMPERをAMフレンドリな優先サンプリング操作で設計するハードウェア・ソフトウェア共同設計手法を提案する。
参考スコア（独自算出の注目度）: 6.117098064452361
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Experience replay is an essential component in deep reinforcement learning (DRL), which stores the experiences and generates experiences for the agent to learn in real time. Recently, prioritized experience replay (PER) has been proven to be powerful and widely deployed in DRL agents. However, implementing PER on traditional CPU or GPU architectures incurs significant latency overhead due to its frequent and irregular memory accesses. This paper proposes a hardware-software co-design approach to design an associative memory (AM) based PER, AMPER, with an AM-friendly priority sampling operation. AMPER replaces the widely-used time-costly tree-traversal-based priority sampling in PER while preserving the learning performance. Further, we design an in-memory computing hardware architecture based on AM to support AMPER by leveraging parallel in-memory search operations. AMPER shows comparable learning performance while achieving 55x to 270x latency improvement when running on the proposed hardware compared to the state-of-the-art PER running on GPU.
Abstract（参考訳）: 体験リプレイは深層強化学習(DRL)において不可欠な要素であり、エージェントがリアルタイムで学習する経験を記憶し、生成する。近年、優先体験再生(PER)はDRLエージェントに強力で広く展開されていることが証明されている。しかし、従来のCPUやGPUアーキテクチャにPERを実装すると、頻繁で不規則なメモリアクセスのために大きな遅延オーバーヘッドが発生する。本稿では,連想メモリ(AM)ベースのPER,AMPERをAMフレンドリな優先サンプリング操作で設計するハードウェア・ソフトウェア共同設計手法を提案する。 AMPERは、学習性能を保ちながらPERで広く使われる時間費用のかかるツリートラバーサルベースの優先度サンプリングを置き換える。さらに,並列なメモリ内検索操作を活用することで,AMPERをサポートするメモリ内コンピューティングハードウェアアーキテクチャを設計する。 amperは同等の学習性能を示しながら、提案ハードウェア上で実行する場合のレイテンシを、gpu上での実行時の最先端と比較して55倍から270倍向上させる。

関連論文リスト

SelaVPR++: Towards Seamless Adaptation of Foundation Models for Efficient Place Recognition [69.58329995485158]
近年の研究では、事前学習した視覚基盤モデルを用いた視覚的位置認識(VPR)法が有望な性能を達成できることが示されている。本稿では,基礎モデルのVPRへのシームレスな適応を実現する新しい手法を提案する。効率の向上と性能向上のために,SelaVPR++と呼ばれるSelaVPRの拡張を提案する。
論文参考訳（メタデータ） (2025-02-23T15:01:09Z)
Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文参考訳（メタデータ） (2024-12-02T06:57:46Z)
SwiftRL: Towards Efficient Reinforcement Learning on Real Processing-In-Memory Systems [21.133750045141802]
強化学習(RL)は、経験データセットから報酬信号を最大化することにより、エージェントに最適な行動を学ぶように訓練する。これを解決するために、SwiftRLは、RLワークロードを高速化するために、Processing-In-Memory(PIM)アーキテクチャを調査している。 UPMEM PIM システム上で Tabular Q-learning や SARSA などのRL アルゴリズムを実装し,ニア線形性能のスケーリングを実現する。
論文参考訳（メタデータ） (2024-05-07T02:54:31Z)
AdaIR: Exploiting Underlying Similarities of Image Restoration Tasks with Adapters [57.62742271140852]
AdaIRは、パフォーマンスを犠牲にすることなく、低コストで効率的なトレーニングを可能にする新しいフレームワークである。 AdaIRは軽量でタスク固有のモジュールのトレーニングのみを必要とし、より効率的なストレージとトレーニング体制を確保する。
論文参考訳（メタデータ） (2024-04-17T15:31:06Z)
GEAR: A GPU-Centric Experience Replay System for Large Reinforcement Learning Models [32.23853007467266]
GEARは、大きなシーケンスモデル(トランスなど)でスケーラブルな強化学習(RL)を実現するように設計されている。ホストメモリへのゼロコピーアクセスを使用してトラジェクトリを収集できるGPUカーネルと、InfiniBand上のリモート指向メモリアクセスを備える。 Gearは、最先端の大規模RLモデルをトレーニングする際に、Reverbよりも最大6倍パフォーマンスレベルを達成することができる。
論文参考訳（メタデータ） (2023-10-08T15:39:43Z)
Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals [69.76245723797368]
Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。各種RLアルゴリズムは,設計支援による性能向上とトレーニング速度の向上を実現している。
論文参考訳（メタデータ） (2023-02-09T05:47:03Z)
Asynchronous Curriculum Experience Replay: A Deep Reinforcement Learning Approach for UAV Autonomous Motion Control in Unknown Dynamic Environments [2.635402406262781]
無人航空機(UAV)は軍用機として広く使用されている。マルコフ決定過程(MDP)として自律運動制御(AMC)問題を定式化する。本稿では,UAVが大規模3次元3次元環境下で複雑なタスクを実行できる高度深部強化学習法を提案する。
論文参考訳（メタデータ） (2022-07-04T08:19:39Z)
MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文参考訳（メタデータ） (2022-05-25T11:08:20Z)
Memory-efficient Reinforcement Learning with Value-based Knowledge Consolidation [14.36005088171571]
本稿では,深部Q-networkアルゴリズムに基づくメモリ効率向上学習アルゴリズムを提案する。提案アルゴリズムは,対象のQネットワークから現在のQネットワークへの知識の統合により,高いサンプル効率を低下させる。
論文参考訳（メタデータ） (2022-05-22T17:02:51Z)
MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。 MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2022-04-27T14:00:48Z)
Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。 MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文参考訳（メタデータ） (2022-01-03T02:32:06Z)
Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。 SEERは、既存の非政治深層強化学習方法の簡単な修正です。計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文参考訳（メタデータ） (2021-03-04T08:14:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。