論文の概要: Map-based Experience Replay: A Memory-Efficient Solution to Catastrophic
Forgetting in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.02054v2
- Date: Mon, 28 Aug 2023 14:38:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 23:43:23.944399
- Title: Map-based Experience Replay: A Memory-Efficient Solution to Catastrophic
Forgetting in Reinforcement Learning
- Title(参考訳): 地図に基づく体験リプレイ:強化学習における破滅的蓄積に対する記憶効率の良い解決法
- Authors: Muhammad Burhan Hafez, Tilman Immisch, Tom Weber, Stefan Wermter
- Abstract要約: 深層強化学習エージェントは、しばしば破滅的な忘れ込みに悩まされ、新しいデータをトレーニングする際に、入力空間の一部で以前見つかったソリューションを忘れる。
本稿では,Grow-When-Required(GWR)自己組織化ネットワークに基づく,認知に触発された新しいリプレイメモリ手法を提案する。
提案手法では, 状態ノードと遷移エッジの簡潔な環境モデルライクなネットワークに格納された遷移を整理し, 類似のサンプルをマージすることにより, メモリサイズを小さくし, サンプル間のペアワイズ距離を増大させる。
- 参考スコア(独自算出の注目度): 15.771773131031054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning agents often suffer from catastrophic forgetting,
forgetting previously found solutions in parts of the input space when training
on new data. Replay Memories are a common solution to the problem,
decorrelating and shuffling old and new training samples. They naively store
state transitions as they come in, without regard for redundancy. We introduce
a novel cognitive-inspired replay memory approach based on the
Grow-When-Required (GWR) self-organizing network, which resembles a map-based
mental model of the world. Our approach organizes stored transitions into a
concise environment-model-like network of state-nodes and transition-edges,
merging similar samples to reduce the memory size and increase pair-wise
distance among samples, which increases the relevancy of each sample. Overall,
our paper shows that map-based experience replay allows for significant memory
reduction with only small performance decreases.
- Abstract(参考訳): 深層強化学習エージェントは、新しいデータをトレーニングするとき、入力空間の一部で以前に見つかったソリューションを忘れ、壊滅的な忘れに苦しむことが多い。
Replay Memoriesはこの問題の一般的な解決策であり、古いトレーニングサンプルと新しいトレーニングサンプルを関連付け、シャッフルする。
冗長性を考慮せずに、入ってくる状態遷移を生かして保存する。
本稿では,世界地図ベースの心的モデルに類似したgwr自己組織化ネットワークに基づく,新しい認知的インスパイアされたリプレイメモリアプローチを提案する。
本手法では,ステートノードとトランジッションエッジの簡潔な環境モデルライクなネットワークにストアドトランジションを整理し,類似したサンプルをマージすることでメモリサイズを削減し,サンプル間のペアワイズ距離を増加させ,各サンプルの関連性を高める。
全体的に、マップベースのエクスペリエンスリプレイにより、少ないパフォーマンスで大幅にメモリ削減が可能となることを示した。
関連論文リスト
- MsMemoryGAN: A Multi-scale Memory GAN for Palm-vein Adversarial Purification [40.80205521005344]
本稿では,MsMemoryGANという新しい防衛モデルを提案する。
MsMemoryGANは、メモリに記録された通常のパターンのより少ない原型要素を使用することで、入力を再構築することを学ぶ。
本手法では, 血管分類器が高い認識精度を達成できるため, 様々な逆方向の摂動を除去する。
論文 参考訳(メタデータ) (2024-08-20T09:46:30Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - TEAL: New Selection Strategy for Small Buffers in Experience Replay Class Incremental Learning [7.627299398469962]
TEALは,メモリを例に示す新しい手法である。
TEAL は複数の画像認識ベンチマークにおいて,SOTA 法 XDER と ER と ER-ACE の平均精度を向上することを示す。
論文 参考訳(メタデータ) (2024-06-30T12:09:08Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Memory Replay with Data Compression for Continual Learning [80.95444077825852]
古いトレーニングサンプルの記憶コストを低減するため,データ圧縮によるメモリリプレイを提案する。
我々はこれを、クラスインクリメンタル学習のいくつかのベンチマークと、自律運転のためのオブジェクト検出の現実的なシナリオにおいて、広範囲に検証する。
論文 参考訳(メタデータ) (2022-02-14T10:26:23Z) - Saliency Guided Experience Packing for Replay in Continual Learning [6.417011237981518]
本研究では,経験再現のための新しいアプローチを提案し,過去の経験をサリエンシマップから選択する。
新しいタスクを学習している間、我々はこれらのメモリパッチを適切なゼロパディングで再生し、過去の決定をモデルに思い出させる。
論文 参考訳(メタデータ) (2021-09-10T15:54:58Z) - Reducing Representation Drift in Online Continual Learning [87.71558506591937]
私たちは、エージェントが制限されたメモリと計算で変化する分布から学ぶ必要があるオンライン連続学習パラダイムを研究します。
この作業では、入ってくるデータストリームに未観測のクラスサンプルが導入されることにより、事前に観測されたデータの表現の変化に焦点を合わせます。
論文 参考訳(メタデータ) (2021-04-11T15:19:30Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - The Effectiveness of Memory Replay in Large Scale Continual Learning [42.67483945072039]
入力シーケンス内のタスクが分類に制限されず、出力が高次元の大規模環境で連続学習を研究する。
既存のメソッドは通常、入出力ペアのみを再生する。
入力と出力のペアに加えて,中間層の活性化を再現する。
論文 参考訳(メタデータ) (2020-10-06T01:23:12Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Fully reversible neural networks for large-scale surface and sub-surface
characterization via remote sensing [4.383011485317949]
ハイパースペクトルおよび空中磁気および重力データの大規模な空間/周波数スケールは、(サブ)表面のキャラクタリゼーションに畳み込みニューラルネットワークを使用する場合、メモリ問題を引き起こす。
本研究は,高スペクトル時間ラプスデータによる土地利用変化検出の例と,空中地学的・地質学的データによる地域帯水層マッピングの例を示す。
論文 参考訳(メタデータ) (2020-03-16T23:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。