論文の概要: Not All Memories are Created Equal: Learning to Forget by Expiring
- arxiv url: http://arxiv.org/abs/2105.06548v1
- Date: Thu, 13 May 2021 20:50:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 12:54:15.009146
- Title: Not All Memories are Created Equal: Learning to Forget by Expiring
- Title(参考訳): すべての記憶が平等に作られたわけではない
- Authors: Sainbayar Sukhbaatar, Da Ju, Spencer Poff, Stephen Roller, Arthur
Szlam, Jason Weston, Angela Fan
- Abstract要約: 本稿では,重要情報の保持を学習し,無関係情報を期限とするExpire-Spanを提案する。
この記憶を忘れることで、トランスフォーマーは数十万以上の前のタイムステップに効率的に参加することができます。
私たちは、Expire-Spanが数万の大きさの記憶にスケールできることを示し、信じられないほど長いコンテキストタスクに新しい状態を設定します。
- 参考スコア(独自算出の注目度): 49.053569908417636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention mechanisms have shown promising results in sequence modeling tasks
that require long-term memory. Recent work investigated mechanisms to reduce
the computational cost of preserving and storing memories. However, not all
content in the past is equally important to remember. We propose Expire-Span, a
method that learns to retain the most important information and expire the
irrelevant information. This forgetting of memories enables Transformers to
scale to attend over tens of thousands of previous timesteps efficiently, as
not all states from previous timesteps are preserved. We demonstrate that
Expire-Span can help models identify and retain critical information and show
it can achieve strong performance on reinforcement learning tasks specifically
designed to challenge this functionality. Next, we show that Expire-Span can
scale to memories that are tens of thousands in size, setting a new state of
the art on incredibly long context tasks such as character-level language
modeling and a frame-by-frame moving objects task. Finally, we analyze the
efficiency of Expire-Span compared to existing approaches and demonstrate that
it trains faster and uses less memory.
- Abstract(参考訳): 注意機構は、長期記憶を必要とするシーケンスモデリングタスクにおいて有望な結果を示している。
最近の研究は、記憶の保存と保存の計算コストを削減するメカニズムを調査した。
しかし、過去のすべてのコンテンツが同じように重要であるわけではない。
本稿では,重要情報の保持を学習し,無関係情報を期限とするExpire-Spanを提案する。
この記憶の忘れにより、トランスフォーマーは、前の全ての状態が保存されているわけではないため、何万もの前のタイムステップを効率的に処理できる。
Expire-Spanは、モデルが重要な情報を識別し、保持し、この機能に挑戦するために特別に設計された強化学習タスクにおいて強力な性能を発揮することを示す。
次に、Expire-Spanは数万のメモリにスケール可能であることを示し、文字レベルの言語モデリングやフレーム単位の移動オブジェクトタスクなど、信じられないほど長いコンテキストタスクに新しい技術状態を設定する。
最後に,既存の手法と比較して有効期限スパンの効率を解析し,高速にトレーニングでき,メモリ使用量も少ないことを示す。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Ever-Evolving Memory by Blending and Refining the Past [30.63352929849842]
CREEMは長期会話のための新しい記憶システムである。
過去と現在の情報をシームレスに接続すると同時に、障害情報を忘れる能力も備えている。
論文 参考訳(メタデータ) (2024-03-03T08:12:59Z) - Think Before You Act: Decision Transformers with Working Memory [44.18926449252084]
決定変換器に基づく意思決定エージェントは、複数のタスクにまたがる一般化能力を示している。
この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると我々は主張する。
ダウンストリームタスクの情報を格納、ブレンド、検索するためのワーキングメモリモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:20:22Z) - Saliency-Augmented Memory Completion for Continual Learning [8.243137410556495]
忘れる方法は、継続的な学習に対処しなければならない問題である。
本稿では,連続学習のための新たなサリエンシ強化メモリ補完フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-26T18:06:39Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。
ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。
最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文 参考訳(メタデータ) (2021-10-06T03:53:25Z) - Learning to Rehearse in Long Sequence Memorization [107.14601197043308]
既存の推論タスクは、しばしば、推論中に入力内容が常にアクセス可能であるという重要な仮定を持つ。
メモリ拡張ニューラルネットワークは、人間のような書き込み読み取りメモリを導入し、1回のパスで長い入力シーケンスを圧縮し記憶する。
しかし、2つの重大な欠点がある: 1) メモリを現在の情報から継続的に更新し、必然的に初期の内容を忘れる; 2) 重要な情報を区別せず、全てのコンテンツを平等に扱う。
本稿では,履歴サンプリング装置を用いた自己教師型リハーサルによる長期記憶向上のためのリハーサルメモリを提案する。
論文 参考訳(メタデータ) (2021-06-02T11:58:30Z) - Towards mental time travel: a hierarchical memory for reinforcement
learning agents [9.808027857786781]
強化学習エージェントは、特に遅延や邪魔なタスクの後、過去の詳細を忘れることが多い。
エージェントが過去を詳細に記憶するのに役立つ階層型トランスフォーマーメモリ(HTM)を提案する。
HTMのエージェントは、トレーニング対象よりも桁違い長いタスクシーケンスに外挿することができ、メタラーニング環境からゼロショットを一般化してエピソード間の知識を維持することもできる。
論文 参考訳(メタデータ) (2021-05-28T18:12:28Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。