論文の概要: $δ$-mem: Efficient Online Memory for Large Language Models
- arxiv url: http://arxiv.org/abs/2605.12357v1
- Date: Tue, 12 May 2026 16:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.011921
- Title: $δ$-mem: Efficient Online Memory for Large Language Models
- Title(参考訳): $δ$-mem: 大規模言語モデルのための効率的なオンラインメモリ
- Authors: Jingdi Lei, Di Zhang, Junxian Li, Weida Wang, Kaixuan Fan, Xiang Liu, Qihan Liu, Xiaoteng Ma, Baian Chen, Soujanya Poria,
- Abstract要約: 我々は,凍結したフルアテンションバックボーンを連想メモリのコンパクトなオンライン状態に拡張する軽量メモリ機構である$-memを提案する。
$-memはデルタルール学習によって更新された固定サイズの状態行列に過去の情報を圧縮し、その読み出しを使ってバックボーンの注意計算の低ランク補正を生成する。
- 参考スコア(独自算出の注目度): 44.912347805786716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models increasingly need to accumulate and reuse historical information in long-term assistants and agent systems. Simply expanding the context window is costly and often fails to ensure effective context utilization. We propose $δ$-mem, a lightweight memory mechanism that augments a frozen full-attention backbone with a compact online state of associative memory. $δ$-mem compresses past information into a fixed-size state matrix updated by delta-rule learning, and uses its readout to generate low-rank corrections to the backbone's attention computation during generation. With only an $8\times8$ online memory state, $δ$-mem improves the average score to $1.10\times$ that of the frozen backbone and $1.15\times$ that of the strongest non-$δ$-mem memory baseline. It achieves larger gains on memory-heavy benchmarks, reaching $1.31\times$ on MemoryAgentBench and $1.20\times$ on LoCoMo, while largely preserving general capabilities. These results show that effective memory can be realized through a compact online state directly coupled with attention computation, without full fine-tuning, backbone replacement, or explicit context extension.
- Abstract(参考訳): 大規模言語モデルは、長期のアシスタントやエージェントシステムにおいて、歴史的情報を蓄積し再利用する必要性がますます高まっている。
単にコンテキストウィンドウを拡張するのはコストがかかり、多くの場合、効果的なコンテキスト利用を保証するのに失敗します。
我々は,凍結したフルアテンションバックボーンを連想メモリのコンパクトなオンライン状態に拡張する軽量メモリ機構である$δ$-memを提案する。
$δ$-memは、デルタルール学習によって更新された固定サイズの状態行列に過去の情報を圧縮し、その読み出しを使って、生成中のバックボーンの注意計算に低ランクの補正を生成する。
オンラインメモリは8ドル(約8,800円)に過ぎず、δ$-memは平均スコアを1.10ドル(約1,300円)に改善し、凍ったバックボーンは1.15ドル(約1,300円)となる。
メモリ量の多いベンチマークでは、MemoryAgentBenchでは1.31\times$、LoCoMoでは1.20\times$に到達し、一般的な機能はほとんど保存されている。
これらの結果から, 完全微調整, バックボーン置換, 明示的コンテキスト拡張を伴わずに, 注意計算と直接結合したコンパクトなオンライン状態により, 効果的なメモリを実現することができた。
関連論文リスト
- MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models [40.965722377085456]
メモリ品質を評価するための報酬モデルの有効性を体系的に研究する最初のベンチマークであるMemoryRewardBenchを紹介する。
13個の最先端RMの評価は、オープンソースモデルとプロプライエタリモデルの間のパフォーマンスギャップを減らしていることを示している。
論文 参考訳(メタデータ) (2026-01-17T09:04:53Z) - Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution [52.76038908826961]
我々は静的ストレージと動的推論のギャップを埋めるため、$textbfReMe$ ($textitRemember Me, Refine Me$)を提案する。
ReMeは3つのメカニズムを通じてメモリライフサイクルを革新する: $textitmulti-faceted distillation$, きめ細かい経験を抽出する。
BFCL-V3とAppWorldの実験では、ReMeが新しい最先端のエージェントメモリシステムを確立している。
論文 参考訳(メタデータ) (2025-12-11T14:40:01Z) - LightMem: Lightweight and Efficient Memory-Augmented Generation [72.21680105265824]
我々は、メモリシステムの性能と効率のバランスをとるLightMemという新しいメモリシステムを紹介した。
人間の記憶のアトキンソン・シフリンモデルにインスパイアされたLightMemは、メモリを3つの相補的なステージにまとめる。
GPTとQwenのバックボーンを用いたLongMemEvalの実験では、LightMemは高いベースライン(最大10.9%のゲイン)を上回り、トークンの使用量を最大117倍に削減している。
論文 参考訳(メタデータ) (2025-10-21T17:58:17Z) - Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。
ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。
最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文 参考訳(メタデータ) (2024-12-12T23:56:57Z) - HMT: Hierarchical Memory Transformer for Efficient Long Context Language Processing [33.720656946186885]
Hierarchical Memory Transformer (HMT) はモデル長文処理を容易にする新しいフレームワークである。
HMTは、既存のモデルの長文処理能力を一貫して改善する。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Sub-Linear Memory: How to Make Performers SLiM [38.068090269482425]
vanilla Transformerは、入力長$L$の関数としてシリアル時間とメモリで$O(L2)$を必要とする。
最近の研究は、連続計算に$o(l)$でしかスケールしない様々な線形自己アテンション機構を提案している。
計算の柔軟性は顕著であり, サブリニアメモリを用いた近似をすることなく, 前方および後方の伝播を行うことができる。
論文 参考訳(メタデータ) (2020-12-21T13:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。