論文の概要: Improving Sparse Memory Finetuning
- arxiv url: http://arxiv.org/abs/2604.05248v1
- Date: Mon, 06 Apr 2026 23:16:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.527375
- Title: Improving Sparse Memory Finetuning
- Title(参考訳): スパースメモリ微細化の改善
- Authors: Satyam Goyal, Anirudh Kanchi, Garv Shah, Prakhar Gupta,
- Abstract要約: 大規模言語モデル(LLM)は通常、トレーニング後に静的になるが、現実のアプリケーションは既存の能力を劣化させることなく、新しい知識への継続的な適応を必要とする。
完全な微調整やパラメータ効率の手法のようなモデル更新の標準的なアプローチは、基本的なトレードオフに直面します。
Sparse Memory Finetuning (SMF)は、明示的なメモリ層内のパラメータの小さなサブセットにアップデートをローカライズすることで、有望な代替手段を提供する。
- 参考スコア(独自算出の注目度): 6.491055956716639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are typically static after training, yet real-world applications require continual adaptation to new knowledge without degrading existing capabilities. Standard approaches to updating models, like full finetuning or parameter-efficient methods (e.g., LoRA), face a fundamental trade-off: catastrophic forgetting. They modify shared dense representations, causing interference across tasks. Sparse Memory Finetuning (SMF) offers a promising alternative by localizing updates to a small subset of parameters in explicit memory layers. In this work, we present an open-source pipeline to retrofit existing pretrained models (Qwen-2.5-0.5B) with sparse memory modules, enabling effective continual learning on consumer hardware. We extend prior work by introducing a theoretically grounded slot-selection mechanism based on Kullback-Leibler (KL) divergence, which prioritizes memory updates for informationally "surprising" tokens relative to a background distribution. Our experiments demonstrate that our retrofitted models can acquire new factual knowledge with minimal forgetting of held-out capabilities, validating the sparse update hypothesis in a practical setting.
- Abstract(参考訳): 大規模言語モデル(LLM)は通常、トレーニング後に静的になるが、現実のアプリケーションは既存の能力を劣化させることなく、新しい知識への継続的な適応を必要とする。
完全な微調整やパラメータ効率の手法(例えばLoRA)のようなモデル更新の標準的なアプローチは、基本的なトレードオフに直面します。
彼らは共有された密接な表現を修正し、タスク間の干渉を引き起こす。
Sparse Memory Finetuning (SMF)は、明示的なメモリ層内のパラメータの小さなサブセットにアップデートをローカライズすることで、有望な代替手段を提供する。
本研究では,既存の事前学習モデル(Qwen-2.5-0.5B)にスパースメモリモジュールを組み込んだオープンソースのパイプラインを提案する。
我々は,KL(Kulback-Leibler)の発散に基づく理論的根拠付きスロット選択機構を導入し,背景分布に対する情報的"サプライズ"トークンのメモリ更新を優先することで,先行作業を拡張した。
提案実験により,本モデルでは,保持能力の最小限の忘れを伴って新たな事実知識を習得し,スパース更新仮説を実用的に検証できることが実証された。
関連論文リスト
- Locas: Your Models are Principled Initializers of Locally-Supported Parametric Memories [44.46300411842271]
Locasは局所的なパラメトリックメモリであり、現代のトランスフォーマーにおいてFFNブロックの設計を共有する。
このような低ランクサイドウェイFFNスタイルの記憶の適切な初期化は、迅速な収束、一般化の改善、破滅的な予防に不可欠である。
論文 参考訳(メタデータ) (2026-02-04T22:09:40Z) - Continual Learning via Sparse Memory Finetuning [58.163704181154834]
本稿では,スパースパラメータの更新が大惨事な忘れをせずに学習を可能にするかどうかを考察する。
事前学習データの使用に関する新しい知識によって活性化されるメモリスロットのみを更新することにより、新しい知識とモデルの既存の能力との干渉を減らすことができる。
スパースメモリの微調整は、忘れることを大幅に減らしながら、新しい知識を学習することを発見した。
論文 参考訳(メタデータ) (2025-10-16T19:44:38Z) - Adaptive Additive Parameter Updates of Vision Transformers for Few-Shot Continual Learning [0.0]
FSCIL(Few-shot class incremental learning)は、最初にベースクラスの堅牢なデータセット上でモデルをトレーニングし、連続したセッションでそれを漸進的に適応することによって、この問題に対処する。
このアプローチは、制限された新しいデータに過度に適合する傾向があり、全体的なパフォーマンスを損なうとともに、忘れを悪化させる可能性がある。
パラメータ効率のよい加算更新を付加した凍結型ビジョントランスフォーマー(ViT)バックボーンを利用する新しいFSCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-11T21:17:30Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Co(ve)rtex: ML Models as storage channels and their (mis-)applications [2.792027541710663]
機械学習システムでは、不注意な状態と未定義の振る舞いが重大な脆弱性の原因であることが示されている。
MLモデルは,パラメータ化の超過に伴って増大するキャパシティを持つストレージチャネルであると考えている。
本稿では,ML固有の置換に基づく誤り訂正プロトコルを含む,このケースにおけるキャパシティ向上のための最適化手法を提案する。
論文 参考訳(メタデータ) (2023-07-17T19:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。