論文の概要: Memory Grafting: Scaling Language Model Pre-training via Offline Conditional Memory
- arxiv url: http://arxiv.org/abs/2605.20948v1
- Date: Wed, 20 May 2026 09:35:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.600947
- Title: Memory Grafting: Scaling Language Model Pre-training via Offline Conditional Memory
- Title(参考訳): メモリグラフト:オフライン条件記憶による言語モデルの事前学習
- Authors: Runxi Cheng, Yuchen Guan, Yongxian Wei, Qianpu Sun, Qixiu Li, Sinan Du, Feng Xiong, Chun Yuan, Yan Lu, Yeyun Gong,
- Abstract要約: 条件付きメモリのスケーリングは、言語モデルのキャパシティを向上する有望な方法である。
Engramのような既存の方法は、事前トレーニング中にスクラッチから大きなメモリテーブルを学習する。
本研究では, グラフトモデルから凍結した隠蔽状態を条件n-gramメモリとして利用する条件記憶スケーリング手法であるメモリグラフトを提案する。
- 参考スコア(独自算出の注目度): 65.39827296429527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling conditional memory offers a promising way to increase language-model capacity, but existing methods such as Engram learn large memory tables from scratch during pre-training, making memory scaling expensive and sometimes ineffective. We propose Memory Grafting, a conditional memory scaling method that utilizes frozen hidden states from a grafting model as conditional n-gram memory. Given frequent local n-grams, we run the grafting model offline, store final-token hidden representations as memory values, and let the recipient model retrieve them through exact longest-match suffix lookup. Retrieved memories are adapted by lightweight projections and gates, while a hash-based Engram fallback preserves coverage for unmatched contexts. Since the grafting model is only run offline and exact lookup has expected O(1) complexity with respect to memory-bank size, Memory Grafting expands external latent capacity with limited training and inference overhead. Experiments under matched recipient architectures and pre-training budgets show that Memory Grafting improves over both MoE and vanilla Engram baselines. In the 2.8B-scale setting, it improves the average benchmark score from 51.95 for MoE and 52.43 for vanilla Engram to 53.86. In the 0.92B-scale setting, all grafting-model variants improve over the baselines, with Qwen3.5-35B-A3B giving the strongest gains. These results suggest that pretrained models can serve as reusable constructors of external latent memory, providing a practical step toward scaling future language models beyond trainable parameters alone.
- Abstract(参考訳): 条件付きメモリのスケーリングは、言語モデルのキャパシティを向上する有望な方法だが、Engramのような既存のメソッドは、事前トレーニング中にスクラッチから大きなメモリテーブルを学習し、メモリスケーリングを高価にし、時には非効率にする。
本研究では, グラフトモデルから凍結した隠蔽状態を条件n-gramメモリとして利用する条件記憶スケーリング手法であるメモリグラフトを提案する。
ローカルn-gramの頻度を前提として、グラフトモデルをオフラインで実行し、最終トーケンで隠された表現をメモリ値として保存し、受信側モデルに最長のsuffixルックアップを通じてそれらを検索させる。
検索されたメモリは、軽量なプロジェクションとゲートによって適応され、ハッシュベースのEngramフォールバックは、未整合コンテキストのカバレッジを保存する。
グラフトモデルはオフラインでのみ実行され、メモリバンクサイズに関して正確なルックアップはO(1)複雑さを期待しているため、メモリグラフトはトレーニングと推論のオーバーヘッドを制限して外部潜在能力を拡張する。
マッチした受信アーキテクチャと事前トレーニングの予算の下での実験では、メモリグラフトはMoEとバニラ・エングラムのベースラインよりも改善されている。
2.8Bスケールでは、平均ベンチマークスコアはMoEが51.95、バニラ・エングラムが52.43から53.86に改善された。
0.92Bスケールでは、すべてのグラフトモデルがベースラインよりも改善され、Qwen3.5-35B-A3Bが最強のゲインとなった。
これらの結果は、事前学習されたモデルは、外部潜在メモリの再利用可能なコンストラクタとして機能し、トレーニング可能なパラメータだけでなく、将来の言語モデルをスケールするための実践的なステップとなることを示唆している。
関連論文リスト
- Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models [42.816060150754645]
我々は,O(1)ルックアップのための古典的な$N$-gram埋め込みを近代化するモジュールであるEngramを介してインスタンス化した,相補的空間軸として条件記憶を導入する。
我々はEngramを27Bパラメータに拡張し、厳密なアイソパラメータとアイソFLOPs MoEベースラインよりも優れた性能を実現する。
我々は,次世代スパースモデルにおいて,条件記憶を必要不可欠なモデリングプリミティブとして想定する。
論文 参考訳(メタデータ) (2026-01-12T09:54:49Z) - Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。
ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。
最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文 参考訳(メタデータ) (2024-12-12T23:56:57Z) - Lift Yourself Up: Retrieval-augmented Text Generation with Self Memory [72.36736686941671]
本稿では,検索拡張生成モデルを改善するための新しいフレームワーク,Selfmemを提案する。
Selfmemは、検索拡張ジェネレータを反復的に使用して、無制限のメモリプールを生成し、メモリセレクタを使用して、続く生成ラウンドの1つの出力をメモリとして選択する。
我々は,3つの異なるテキスト生成タスクにおける自己メモの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-03T21:40:54Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Training Language Models with Memory Augmentation [28.4608705738799]
本稿では,メモリ拡張による言語モデル学習のための新しいトレーニング手法を提案する。
当社のアプローチでは、バッチ内のサンプルをアクセス可能なメモリとして直接取り込むトレーニング目標を用いています。
従来のメモリ拡張アプローチよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:37:29Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。