論文の概要: GradMem: Learning to Write Context into Memory with Test-Time Gradient Descent
- arxiv url: http://arxiv.org/abs/2603.13875v1
- Date: Sat, 14 Mar 2026 10:17:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.459128
- Title: GradMem: Learning to Write Context into Memory with Test-Time Gradient Descent
- Title(参考訳): GradMem: テストタイムのGradient Descentでコンテキストをメモリに書き込む学習
- Authors: Yuri Kuratov, Matvey Kairov, Aydar Bulatov, Ivan Rodkin, Mikhail Burtsev,
- Abstract要約: サンプルごとのテスト時間最適化を通じてコンテキストをメモリに書き込むGradMemを紹介します。
GradMemは、モデルレベルの自己教師付きコンテキスト再構築損失を明示的に最適化する。
bAbIやSQuADなど、自然言語タスクの競合的な結果が得られる。
- 参考スコア(独自算出の注目度): 10.16391634040356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many large language model applications require conditioning on long contexts. Transformers typically support this by storing a large per-layer KV-cache of past activations, which incurs substantial memory overhead. A desirable alternative is ompressive memory: read a context once, store it in a compact state, and answer many queries from that state. We study this in a context removal setting, where the model must generate an answer without access to the original context at inference time. We introduce GradMem, which writes context into memory via per-sample test-time optimization. Given a context, GradMem performs a few steps of gradient descent on a small set of prefix memory tokens while keeping model weights frozen. GradMem explicitly optimizes a model-level self-supervised context reconstruction loss, resulting in a loss-driven write operation with iterative error correction, unlike forward-only methods. On associative key--value retrieval, GradMem outperforms forward-only memory writers with the same memory size, and additional gradient steps scale capacity much more effectively than repeated forward writes. We further show that GradMem transfers beyond synthetic benchmarks: with pretrained language models, it attains competitive results on natural language tasks including bAbI and SQuAD variants, relying only on information encoded in memory.
- Abstract(参考訳): 多くの大規模言語モデルアプリケーションは、長いコンテキストでの条件付けを必要とする。
トランスフォーマーは通常、過去のアクティベーションの大きな層ごとのKVキャッシュを格納することでこれをサポートします。
好ましくは、その状態からコンテキストを読み出し、それをコンパクトな状態に保存し、多くのクエリに答えることである。
我々は、これをコンテキスト除去設定で研究し、モデルが推論時に元のコンテキストにアクセスせずに答えを生成する必要がある。
サンプルごとのテスト時間最適化を通じてコンテキストをメモリに書き込むGradMemを紹介します。
コンテキストが与えられた場合、GradMemはモデルウェイトを凍結したまま、小さなプレフィックスメモリトークンセットに対して勾配降下のいくつかのステップを実行する。
GradMemはモデルレベルの自己教師付きコンテキスト再構築損失を明示的に最適化し、前方のみのメソッドとは異なり、繰り返しエラー修正を伴う損失駆動書き込み操作を実現する。
連想キー値検索では、GradMemは同じメモリサイズでフォワードオンリーのメモリライターより優れており、追加のグラデーションステップは、繰り返しフォワード書き込みよりもはるかに効果的にキャパシティをスケールする。
事前訓練された言語モデルでは、bAbIやSQuADなどの自然言語タスクに対して、メモリに符号化された情報のみに依存する競合結果が得られる。
関連論文リスト
- Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - HMT: Hierarchical Memory Transformer for Efficient Long Context Language Processing [33.720656946186885]
Hierarchical Memory Transformer (HMT) はモデル長文処理を容易にする新しいフレームワークである。
HMTは、既存のモデルの長文処理能力を一貫して改善する。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Compressed Context Memory For Online Language Model Interaction [39.72054168889216]
本稿では,オンラインシナリオにおけるトランスフォーマー言語モデルに対する文脈キー/値圧縮手法を提案する。
コンテキストが長くなるにつれて、アテンションプロセスはメモリと計算量の増加を必要とし、それによって言語モデルのスループットが低下する。
本稿では,注目鍵/値ペアを連続的にコンパクトなメモリ空間に圧縮するコンテクストメモリシステムを提案する。
論文 参考訳(メタデータ) (2023-12-06T10:50:43Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Training Language Models with Memory Augmentation [28.4608705738799]
本稿では,メモリ拡張による言語モデル学習のための新しいトレーニング手法を提案する。
当社のアプローチでは、バッチ内のサンプルをアクセス可能なメモリとして直接取り込むトレーニング目標を用いています。
従来のメモリ拡張アプローチよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:37:29Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Memory-Based Semantic Parsing [79.48882899104997]
文脈依存型セマンティック解析のためのメモリベースモデルを提案する。
逐次的ユーザ発話の累積的意味を維持することにより,メモリ管理を行うコンテキストメモリコントローラを学習する。
論文 参考訳(メタデータ) (2021-09-07T16:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。