論文の概要: Virtual Replay Cache
- arxiv url: http://arxiv.org/abs/2112.03421v1
- Date: Mon, 6 Dec 2021 23:40:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 15:01:10.495024
- Title: Virtual Replay Cache
- Title(参考訳): 仮想リプレイキャッシュ
- Authors: Brett Daley and Christopher Amato
- Abstract要約: 本稿では,これらの欠点に対処する新たなデータ構造であるVirtual Replay Cache(VRC)を提案する。
VRCは、DQN(lambda)のキャッシュメモリフットプリントをほぼ排除し、ハードウェアのトレーニング時間をわずかに短縮します。
- 参考スコア(独自算出の注目度): 20.531576904743282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Return caching is a recent strategy that enables efficient minibatch training
with multistep estimators (e.g. the {\lambda}-return) for deep reinforcement
learning. By precomputing return estimates in sequential batches and then
storing the results in an auxiliary data structure for later sampling, the
average computation spent per estimate can be greatly reduced. Still, the
efficiency of return caching could be improved, particularly with regard to its
large memory usage and repetitive data copies. We propose a new data structure,
the Virtual Replay Cache (VRC), to address these shortcomings. When learning to
play Atari 2600 games, the VRC nearly eliminates DQN({\lambda})'s cache memory
footprint and slightly reduces the total training time on our hardware.
- Abstract(参考訳): 戻りキャッシングは、強化学習のためのマルチステップ推定器(例えば、return-return)による効率的なミニバッチトレーニングを可能にする最近の戦略である。
逐次バッチでリターン推定をプリ計算し、後続サンプリングのための補助データ構造に保存することにより、推定当たりの平均計算量を大幅に削減することができる。
それでも、特に大きなメモリ使用量と繰り返しデータコピーに関しては、戻りキャッシュの効率が向上する可能性がある。
本稿では,これらの欠点に対処する新たなデータ構造であるVirtual Replay Cache(VRC)を提案する。
Atari 2600のゲームを学ぼうとすると、VRCはDQN({\lambda})のキャッシュメモリフットプリントをほとんどなくし、ハードウェアのトレーニング時間をわずかに短縮する。
関連論文リスト
- Retro-li: Small-Scale Retrieval Augmented Generation Supporting Noisy Similarity Searches and Domain Shift Generalization [36.251000184801576]
Retroは、数兆のエントリを含む非パラメトリックメモリのデータベースから検索することで、言語モデリング機能を改善し、毒性と幻覚を減らすことが示されている。
Retro-liを導入することで、検索は小規模なデータベースでも有効であるが、より正確でより良い隣人が必要であり、従ってより小さな非パラメトリックメモリを検索する必要がある。
本稿では,Retro-li の非パラメトリックメモリをアナログメモリ・コンピューティング・ハードウェアに実装し,O(1) 探索時間を示すとともに,処理性能の低下を最小 (1%) に抑えることができることを示す。
論文 参考訳(メタデータ) (2024-09-12T23:29:33Z) - PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference [57.53291046180288]
大規模言語モデル(LLM)は、目覚ましい理解能力を示しているが、推論中のGPUメモリ使用の課題に直面している。
本稿では,KVキャッシュを重要なコンテキストを階層的に保持することで圧縮するPraamidInferを提案する。
PyramidInferは、KVキャッシュで54%以上のGPUメモリを削減したAccelerateと比較して、2.2倍のスループットを改善している。
論文 参考訳(メタデータ) (2024-05-21T06:46:37Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Improving information retention in large scale online continual learning [99.73847522194549]
オンライン連続学習は、既存の知識を維持しながら、新しいデータに効率的に適応することを目的としている。
最近の研究は、リプレイバッファが無制限であっても、大規模なOCLでは情報保持が問題であり続けていることを示唆している。
非定常目標に対する最適化を改善するため,移動平均の手法群を提案する。
論文 参考訳(メタデータ) (2022-10-12T16:59:43Z) - Memory-efficient Reinforcement Learning with Value-based Knowledge
Consolidation [14.36005088171571]
本稿では,深部Q-networkアルゴリズムに基づくメモリ効率向上学習アルゴリズムを提案する。
提案アルゴリズムは,対象のQネットワークから現在のQネットワークへの知識の統合により,高いサンプル効率を低下させる。
論文 参考訳(メタデータ) (2022-05-22T17:02:51Z) - Memory Replay with Data Compression for Continual Learning [80.95444077825852]
古いトレーニングサンプルの記憶コストを低減するため,データ圧縮によるメモリリプレイを提案する。
我々はこれを、クラスインクリメンタル学習のいくつかのベンチマークと、自律運転のためのオブジェクト検出の現実的なシナリオにおいて、広範囲に検証する。
論文 参考訳(メタデータ) (2022-02-14T10:26:23Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。