Fugu-MT 論文翻訳(概要): Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings

論文の概要: Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings

arxiv url: http://arxiv.org/abs/2103.02886v1
Date: Thu, 4 Mar 2021 08:14:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-05 15:06:15.578666
Title: Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings
Title（参考訳）: ストアド埋め込みによる視覚強化学習における計算効率の向上
Authors: Lili Chen, Kimin Lee, Aravind Srinivas, Pieter Abbeel
Abstract要約: 効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。 SEERは、既存の非政治深層強化学習方法の簡単な修正です。計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
参考スコア（独自算出の注目度）: 89.63764845984076
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in off-policy deep reinforcement learning (RL) have led to impressive success in complex tasks from visual observations. Experience replay improves sample-efficiency by reusing experiences from the past, and convolutional neural networks (CNNs) process high-dimensional inputs effectively. However, such techniques demand high memory and computational bandwidth. In this paper, we present Stored Embeddings for Efficient Reinforcement Learning (SEER), a simple modification of existing off-policy RL methods, to address these computational and memory requirements. To reduce the computational overhead of gradient updates in CNNs, we freeze the lower layers of CNN encoders early in training due to early convergence of their parameters. Additionally, we reduce memory requirements by storing the low-dimensional latent vectors for experience replay instead of high-dimensional images, enabling an adaptive increase in the replay buffer capacity, a useful technique in constrained-memory settings. In our experiments, we show that SEER does not degrade the performance of RL agents while significantly saving computation and memory across a diverse set of DeepMind Control environments and Atari games. Finally, we show that SEER is useful for computation-efficient transfer learning in RL because lower layers of CNNs extract generalizable features, which can be used for different tasks and domains.
Abstract（参考訳）: オフポリシー深層強化学習(RL)の最近の進歩は、視覚観察からの複雑なタスクで印象的な成功をもたらしました。 experience replayは過去の経験を再利用することでサンプル効率を改善し、畳み込みニューラルネットワーク(cnns)は高次元入力を効果的に処理する。しかし、そのような技術は高いメモリと計算帯域を必要とする。本稿では,既存の非政治RLメソッドの単純な修正であるストアド・エンベディング for Efficient Reinforcement Learning (SEER) について,これらの計算とメモリの要件に対処するために提示する。 CNNの勾配更新の計算オーバーヘッドを減らすために、パラメータの早期収束によるトレーニングの早い段階でCNNエンコーダの下層を凍結します。さらに、高次元画像の代わりに経験再生のための低次元潜時ベクトルを格納することにより、メモリ要求を低減し、リプレイバッファ容量の適応的増加を可能にする。実験の結果,SEERはRLエージェントの性能を劣化させることなく,様々なDeepMindコントロール環境とAtariゲーム間で計算とメモリを著しく節約できることがわかった。 CNNの下位層は、異なるタスクやドメインに使用できる一般化可能な特徴を抽出するため、SEERはRLの計算効率の高い転送学習に有用であることを示す。

関連論文リスト

Optimal Gradient Checkpointing for Sparse and Recurrent Architectures using Off-Chip Memory [0.8321953606016751]
本稿では,スパースRNNとスパイキングニューラルネットワークの一般クラスに適したメモリ効率の高い勾配チェックポイント戦略を提案する。再計算のオーバーヘッドを最小限に抑えながら、ローカルメモリリソースの使用を最適化し、Double Checkpointingが最も効果的な方法であることが判明した。
論文参考訳（メタデータ） (2024-12-16T14:23:31Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Compressing the Backward Pass of Large-Scale Neural Architectures by Structured Activation Pruning [0.0]
ディープニューラルネットワーク(DNN)におけるスパシティはソリューションとして注目されている。この研究は、訓練中のメモリ消費を減らすことを目的として、短命の空間性に焦点を当てている。大規模ニューラルアーキテクチャのトレーニング速度,精度,メモリ使用量を評価することにより,アクティベーションプルーニングの有効性を報告する。
論文参考訳（メタデータ） (2023-11-28T15:31:31Z)
Reinforcement Learning with Fast and Forgetful Memory [10.087126455388276]
強化学習(RL)に特化して設計されたアルゴリズムに依存しないメモリモデルであるFast and Forgetful Memoryを導入する。提案手法は,計算心理学に触発された強い構造的先行性を通じて,モデル探索空間を制約する。 Fast and Forgetful Memoryは、リカレントニューラルネットワーク(RNN)よりも2桁高速なトレーニング速度を示す
論文参考訳（メタデータ） (2023-10-06T09:56:26Z)
A Memory Efficient Deep Reinforcement Learning Approach For Snake Game Autonomous Agents [0.799536002595393]
本稿では,環境情報の追加を必要とせず,圧縮画像データに合理的に適合する改良DRL法を提案する。我々は,Q-networkの変種である軽量畳み込みニューラルネットワーク(CNN)を設計した。
論文参考訳（メタデータ） (2023-01-27T20:26:48Z)
Loss shaping enhances exact gradient learning with Eventprop in spiking neural networks [0.1350479308585481]
Eventpropは、スパイキングニューラルネットワークの正確な勾配の勾配勾配のアルゴリズムである。我々は、GPU強化ニューラルネットワークフレームワークにEventpropを実装した。 Spiking Heidelberg DigitsとSpking Speech Commandsデータセットで、スパイクニューラルネットワークをトレーニングします。
論文参考訳（メタデータ） (2022-12-02T15:20:58Z)
Memory-efficient Reinforcement Learning with Value-based Knowledge Consolidation [14.36005088171571]
本稿では,深部Q-networkアルゴリズムに基づくメモリ効率向上学習アルゴリズムを提案する。提案アルゴリズムは,対象のQネットワークから現在のQネットワークへの知識の統合により,高いサンプル効率を低下させる。
論文参考訳（メタデータ） (2022-05-22T17:02:51Z)
Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文参考訳（メタデータ） (2022-04-02T09:50:19Z)
Learning Bayesian Sparse Networks with Full Experience Replay for Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文参考訳（メタデータ） (2022-02-21T13:25:03Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)
Optimizing Memory Placement using Evolutionary Graph Reinforcement Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。また,NNP-Iコンパイラと比較して28～78%の高速化を実現している。
論文参考訳（メタデータ） (2020-07-14T18:50:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。