論文の概要: Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings
- arxiv url: http://arxiv.org/abs/2103.02886v1
- Date: Thu, 4 Mar 2021 08:14:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 15:06:15.578666
- Title: Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings
- Title(参考訳): ストアド埋め込みによる視覚強化学習における計算効率の向上
- Authors: Lili Chen, Kimin Lee, Aravind Srinivas, Pieter Abbeel
- Abstract要約: 効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
- 参考スコア(独自算出の注目度): 89.63764845984076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in off-policy deep reinforcement learning (RL) have led to
impressive success in complex tasks from visual observations. Experience replay
improves sample-efficiency by reusing experiences from the past, and
convolutional neural networks (CNNs) process high-dimensional inputs
effectively. However, such techniques demand high memory and computational
bandwidth. In this paper, we present Stored Embeddings for Efficient
Reinforcement Learning (SEER), a simple modification of existing off-policy RL
methods, to address these computational and memory requirements. To reduce the
computational overhead of gradient updates in CNNs, we freeze the lower layers
of CNN encoders early in training due to early convergence of their parameters.
Additionally, we reduce memory requirements by storing the low-dimensional
latent vectors for experience replay instead of high-dimensional images,
enabling an adaptive increase in the replay buffer capacity, a useful technique
in constrained-memory settings. In our experiments, we show that SEER does not
degrade the performance of RL agents while significantly saving computation and
memory across a diverse set of DeepMind Control environments and Atari games.
Finally, we show that SEER is useful for computation-efficient transfer
learning in RL because lower layers of CNNs extract generalizable features,
which can be used for different tasks and domains.
- Abstract(参考訳): オフポリシー深層強化学習(RL)の最近の進歩は、視覚観察からの複雑なタスクで印象的な成功をもたらしました。
experience replayは過去の経験を再利用することでサンプル効率を改善し、畳み込みニューラルネットワーク(cnns)は高次元入力を効果的に処理する。
しかし、そのような技術は高いメモリと計算帯域を必要とする。
本稿では,既存の非政治RLメソッドの単純な修正であるストアド・エンベディング for Efficient Reinforcement Learning (SEER) について,これらの計算とメモリの要件に対処するために提示する。
CNNの勾配更新の計算オーバーヘッドを減らすために、パラメータの早期収束によるトレーニングの早い段階でCNNエンコーダの下層を凍結します。
さらに、高次元画像の代わりに経験再生のための低次元潜時ベクトルを格納することにより、メモリ要求を低減し、リプレイバッファ容量の適応的増加を可能にする。
実験の結果,SEERはRLエージェントの性能を劣化させることなく,様々なDeepMindコントロール環境とAtariゲーム間で計算とメモリを著しく節約できることがわかった。
CNNの下位層は、異なるタスクやドメインに使用できる一般化可能な特徴を抽出するため、SEERはRLの計算効率の高い転送学習に有用であることを示す。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Compressing the Backward Pass of Large-Scale Neural Architectures by
Structured Activation Pruning [0.0]
ディープニューラルネットワーク(DNN)におけるスパシティはソリューションとして注目されている。
この研究は、訓練中のメモリ消費を減らすことを目的として、短命の空間性に焦点を当てている。
大規模ニューラルアーキテクチャのトレーニング速度,精度,メモリ使用量を評価することにより,アクティベーションプルーニングの有効性を報告する。
論文 参考訳(メタデータ) (2023-11-28T15:31:31Z) - Reinforcement Learning with Fast and Forgetful Memory [10.087126455388276]
強化学習(RL)に特化して設計されたアルゴリズムに依存しないメモリモデルであるFast and Forgetful Memoryを導入する。
提案手法は,計算心理学に触発された強い構造的先行性を通じて,モデル探索空間を制約する。
Fast and Forgetful Memoryは、リカレントニューラルネットワーク(RNN)よりも2桁高速なトレーニング速度を示す
論文 参考訳(メタデータ) (2023-10-06T09:56:26Z) - A Memory Efficient Deep Reinforcement Learning Approach For Snake Game
Autonomous Agents [0.799536002595393]
本稿では,環境情報の追加を必要とせず,圧縮画像データに合理的に適合する改良DRL法を提案する。
我々は,Q-networkの変種である軽量畳み込みニューラルネットワーク(CNN)を設計した。
論文 参考訳(メタデータ) (2023-01-27T20:26:48Z) - Memory-efficient Reinforcement Learning with Value-based Knowledge
Consolidation [14.36005088171571]
本稿では,深部Q-networkアルゴリズムに基づくメモリ効率向上学習アルゴリズムを提案する。
提案アルゴリズムは,対象のQネットワークから現在のQネットワークへの知識の統合により,高いサンプル効率を低下させる。
論文 参考訳(メタデータ) (2022-05-22T17:02:51Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。