論文の概要: Continual Learning via Sparse Memory Finetuning
- arxiv url: http://arxiv.org/abs/2510.15103v1
- Date: Thu, 16 Oct 2025 19:44:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.370447
- Title: Continual Learning via Sparse Memory Finetuning
- Title(参考訳): スパースメモリファインタニングによる連続学習
- Authors: Jessy Lin, Luke Zettlemoyer, Gargi Ghosh, Wen-Tau Yih, Aram Markosyan, Vincent-Pierre Berges, Barlas Oğuz,
- Abstract要約: 本稿では,スパースパラメータの更新が大惨事な忘れをせずに学習を可能にするかどうかを考察する。
事前学習データの使用に関する新しい知識によって活性化されるメモリスロットのみを更新することにより、新しい知識とモデルの既存の能力との干渉を減らすことができる。
スパースメモリの微調整は、忘れることを大幅に減らしながら、新しい知識を学習することを発見した。
- 参考スコア(独自算出の注目度): 58.163704181154834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern language models are powerful, but typically static after deployment. A major obstacle to building models that continually learn over time is catastrophic forgetting, where updating on new data erases previously acquired capabilities. Motivated by the intuition that mitigating forgetting is challenging because trainable parameters are shared across all tasks, we investigate whether sparse parameter updates can enable learning without catastrophic forgetting. We introduce sparse memory finetuning, leveraging memory layer models (Berges et al., 2024), which are sparsely updated by design. By updating only the memory slots that are highly activated by a new piece of knowledge relative to usage on pretraining data, we reduce interference between new knowledge and the model's existing capabilities. We evaluate learning and forgetting compared to full finetuning and parameter-efficient finetuning with LoRA on two question answering tasks. We find that sparse memory finetuning learns new knowledge while exhibiting substantially less forgetting: while NaturalQuestions F1 drops by 89% after full finetuning on new facts and 71% with LoRA, sparse memory finetuning yields only an 11% drop with the same level of new knowledge acquisition. Our results suggest sparsity in memory layers offers a promising path toward continual learning in large language models.
- Abstract(参考訳): モダンな言語モデルは強力だが、通常はデプロイ後に静的である。
時間とともに継続的に学習するモデルを構築する上での大きな障害は、これまで取得した機能を削除した新しいデータの更新を忘れることである。
トレーニング可能なパラメータがすべてのタスクで共有されているため,忘れることの軽減が難しいという直感に感銘を受け,破滅的な忘れを伴わずに,スパースパラメータの更新が学習を可能にするかどうかを検討する。
本稿では,メモリ層モデル(Berges et al , 2024)を活用するスパースメモリの微調整について述べる。
事前学習データの使用に関する新しい知識によって活性化されるメモリスロットのみを更新することにより、新しい知識とモデルの既存の能力との干渉を減らすことができる。
2つの質問応答タスクにおいて,LoRAを用いた完全微調整とパラメータ効率の微調整と比較し,学習と忘れの評価を行った。
スパースメモリの微調整は,新たな事実の完全な微調整の後,F1は89%減少し,LoRAでは71%減少するが,スパースメモリの微調整では,同じ知識獲得のレベルで11%の低下しか得られない。
以上の結果から,大規模言語モデルにおける連続学習への道のりは,メモリ層内の空白度が期待できることがわかった。
関連論文リスト
- Early Detection and Reduction of Memorisation for Domain Adaptation and Instruction Tuning [4.145513103869504]
我々は、一般的な評価データセット上で1.4B-70BパラメータにまたがるPythia、Llama3、Mistralモデルを微調整する。
最初の数回は暗記が劇的に増加し、しばしば検証の難易度や評価性能が最適化される前に顕著に増加することが判明した。
我々は,n-gram-aware loss regulariserを導入し,最大40%までテストしたモデルファミリー全体の記憶を減少させることを示した。
論文 参考訳(メタデータ) (2025-10-13T13:12:46Z) - TEAL: New Selection Strategy for Small Buffers in Experience Replay Class Incremental Learning [7.627299398469962]
TEALは,メモリを例に示す新しい手法である。
TEALは,既存のクラス増分法の平均精度を向上することを示す。
論文 参考訳(メタデータ) (2024-06-30T12:09:08Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Forgetting before Learning: Utilizing Parametric Arithmetic for
Knowledge Updating in Large Language Models [53.52344131257681]
本稿では,F-Learningと呼ばれるファインチューニングのための新しいパラダイムを提案する。これはパラメトリック算術を用いて,古い知識の忘れと新しい知識の学習を容易にする。
2つの公開データセットによる実験結果から、提案したFラーニングは、完全な微調整とLoRA微調整の両方の知識更新性能を向上させることが明らかに示されている。
論文 参考訳(メタデータ) (2023-11-14T09:12:40Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - Representation Memorization for Fast Learning New Knowledge without
Forgetting [36.55736909586313]
新しい知識を素早く学習する能力は、人間レベルの知性への大きな一歩だ。
新しいクラスやデータ配布を迅速かつ漸進的に学ぶ必要があるシナリオを考えます。
本稿では,2つの課題に対処するため,メモリベースのヘビアン適応を提案する。
論文 参考訳(メタデータ) (2021-08-28T07:54:53Z) - Continual Learning via Bit-Level Information Preserving [88.32450740325005]
我々は情報理論のレンズを通して連続学習過程を研究する。
モデルパラメータの情報利得を維持するビットレベル情報保存(BLIP)を提案する。
BLIPは、連続的な学習を通してメモリオーバーヘッドを一定に保ちながら、ほとんど忘れることができない。
論文 参考訳(メタデータ) (2021-05-10T15:09:01Z) - ZS-IL: Looking Back on Learned ExperiencesFor Zero-Shot Incremental
Learning [9.530976792843495]
データストリームで新しいクラスが発生するたびに過去の体験を提供するオンコール転送セットを提案します。
ZS-ILは、よく知られたデータセット(CIFAR-10、Tiny-ImageNet)において、Task-ILとClass-ILの両方で大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-03-22T22:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。