論文の概要: G-MemLLM: Gated Latent Memory Augmentation for Long-Context Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.00015v1
- Date: Mon, 12 Jan 2026 03:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.198892
- Title: G-MemLLM: Gated Latent Memory Augmentation for Long-Context Reasoning in Large Language Models
- Title(参考訳): G-MemLLM:大規模言語モデルにおけるLong-Context ReasoningのためのG-MemLLM
- Authors: Xun Xu,
- Abstract要約: 凍結したバックボーンとトレーニング可能な textbfLatent Memory Bank を統合したメモリ拡張アーキテクチャである textbfG-MemLLM を提案する。
G-MemLLMはマルチホップ推論とリレーショナル精度を大幅に向上させ、Llama 3.1-8BのZsREの精度を13.3%向上させた。
- 参考スコア(独自算出の注目度): 6.5798851769146784
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in natural language understanding, yet they remain constrained by the finite capacity of their context windows and the inherent difficulty of maintaining long-term factual consistency during multi-hop reasoning. While existing methods utilize context compression or recurrent tokens, they often suffer from ``context rot'' or the dilution of information over long horizons. In this paper, we propose \textbf{G-MemLLM}, a memory-augmented architecture that integrates a frozen LLM backbone with a trainable \textbf{Latent Memory Bank}. Our key innovation is a GRU-style gated update logic that allows the model to selectively update, preserve, or overwrite latent memory slots, preventing the vanishing gradients of knowledge common in recurrent systems. We evaluate G-MemLLM across scales, from GPT-2 (124M) to Llama 3.1 (8B), on the HotpotQA and Zero-Shot Relation Extraction (ZsRE) benchmarks. Our results demonstrate that G-MemLLM significantly enhances multi-hop reasoning and relational precision, achieving a 13.3\% accuracy boost on ZsRE for Llama 3.1-8B, and it also yields improvements across model scales, boosting Answer F1 by 8.56 points for GPT-2 and increasing Supporting Fact F1 by 6.89 points for Llama 3.1-8B on HotpotQA.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示してきたが、それらは、コンテキストウィンドウの有限容量と、マルチホップ推論における長期的な事実整合性を維持することの難しさに制約されているままである。
既存のメソッドはコンテキスト圧縮や繰り返しトークンを使用するが、 'context rot'' や長い水平線上の情報の希釈に悩まされることが多い。
本稿では,冷凍LLMバックボーンとトレーニング可能な \textbf{Latent Memory Bank を統合したメモリ拡張アーキテクチャである \textbf{G-MemLLM} を提案する。
我々の重要な革新は、GRUスタイルのゲート更新ロジックで、モデルが遅延メモリスロットを選択的に更新、保存、あるいは上書きできるので、リカレントシステムで共通する知識の減少を防げます。
G-MemLLM は,GPT-2 (124M) から Llama 3.1 (8B) まで,HotpotQA と Zero-Shot Relation extract (ZsRE) のベンチマークで評価した。
以上の結果から,G-MemLLMはマルチホップ推論とリレーショナル精度を大幅に向上し,Llama 3.1-8BのZsREの13.3倍の精度向上を実現し,GPT-2のAnswer F1を8.56ポイント,HotpotQAのLlama 3.1-8BのサポートF1を6.89ポイント向上した。
関連論文リスト
- Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models [42.816060150754645]
我々は,O(1)ルックアップのための古典的な$N$-gram埋め込みを近代化するモジュールであるEngramを介してインスタンス化した,相補的空間軸として条件記憶を導入する。
我々はEngramを27Bパラメータに拡張し、厳密なアイソパラメータとアイソFLOPs MoEベースラインよりも優れた性能を実現する。
我々は,次世代スパースモデルにおいて,条件記憶を必要不可欠なモデリングプリミティブとして想定する。
論文 参考訳(メタデータ) (2026-01-12T09:54:49Z) - CogMem: A Cognitive Memory Architecture for Sustained Multi-Turn Reasoning in Large Language Models [21.427373172124167]
大規模言語モデル(LLM)はシングルターン推論では優れているが、拡張されたマルチターン相互作用よりも精度とコヒーレンスを失うことが多い。
メモリ拡張型LLMアーキテクチャであるCogMemを導入する。
TurnBenchの実験では、この階層化された設計は推論の失敗を軽減し、コンテキストの成長を制御し、拡張された推論チェーン間の一貫性を改善する。
論文 参考訳(メタデータ) (2025-12-16T06:01:08Z) - Gated KalmaNet: A Fading Memory Layer Through Test-Time Ridge Regression [53.48692193399171]
Gated KalmaNet(GKA)は、次のトークンを予測する際に、すべての過去を説明することによってギャップを低減するレイヤである。
テスト時間におけるオンラインリッジ回帰問題を一定メモリと線形計算コストで解決する。
ロングコンテキストでは、GKAは現実世界のRAGタスクとLongQAタスクを最大128kトークンまで拡張し、他の薄型メモリベースラインよりも10ドル%以上の相対的な改善を実現している。
論文 参考訳(メタデータ) (2025-11-26T03:26:37Z) - Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning [89.55738101744657]
大規模言語モデル(LLM)は、幅広いNLPタスクで印象的な機能を示しているが、基本的にはステートレスである。
本稿では,LLMに外部メモリを積極的に管理・活用する機能を備えた強化学習フレームワークであるMemory-R1を提案する。
論文 参考訳(メタデータ) (2025-08-27T12:26:55Z) - Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory [0.5584627289325719]
大規模言語モデル(LLM)は、文脈的に一貫性のある応答を生成する際、顕著な進歩を示した。
しかし、それらの固定されたコンテキストウィンドウは、長時間のマルチセッション対話に対する一貫性を維持するための根本的な課題を生じさせる。
私たちはMem0というスケーラブルなメモリ中心アーキテクチャを導入し、進行中の会話から健全な情報を動的に抽出し、統合し、取得することでこの問題に対処します。
論文 参考訳(メタデータ) (2025-04-28T01:46:35Z) - MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation [60.04380907045708]
Retrieval-Augmented Generation (RAG)は、この問題に対処するための有望な戦略と考えられている。
我々は,グローバルメモリ拡張検索による新しいRAGフレームワークであるMemoRAGを提案する。
MemoRAGは、様々な長期コンテキスト評価タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-09T13:20:31Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - HMT: Hierarchical Memory Transformer for Efficient Long Context Language Processing [33.720656946186885]
Hierarchical Memory Transformer (HMT) はモデル長文処理を容易にする新しいフレームワークである。
HMTは、既存のモデルの長文処理能力を一貫して改善する。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。