論文の概要: When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning
- arxiv url: http://arxiv.org/abs/2602.10560v1
- Date: Wed, 11 Feb 2026 06:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.507553
- Title: When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning
- Title(参考訳): 記憶と停止のタイミング:長期記憶のための拡張されたリカレントメモリ
- Authors: Leheng Sheng, Yongtao Zhang, Wenchang Ma, Yaorui Shi, Ting Huang, Xiang Wang, An Zhang, Ke Shen, Tat-Seng Chua,
- Abstract要約: より安定かつ効率的な長文推論のための2つのテキスト制御ゲートを組み込んだGRU-Memを提案する。
GRU-Memは一般的に、最大400%の推論速度加速でバニラMemAgentを上回っている。
- 参考スコア(独自算出の注目度): 50.486479460454866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reasoning over long context is crucial for various real-world applications, it remains challenging for large language models (LLMs) as they suffer from performance degradation as the context length grows. Recent work MemAgent has tried to tackle this by processing context chunk-by-chunk in an RNN-like loop and updating a textual memory for final answering. However, this naive recurrent memory update faces two crucial drawbacks: (i) memory can quickly explode because it can update indiscriminately, even on evidence-free chunks; and (ii) the loop lacks an exit mechanism, leading to unnecessary computation after even sufficient evidence is collected. To address these issues, we propose GRU-Mem, which incorporates two text-controlled gates for more stable and efficient long-context reasoning. Specifically, in GRU-Mem, the memory only updates when the update gate is open and the recurrent loop will exit immediately once the exit gate is open. To endow the model with such capabilities, we introduce two reward signals $r^{\text{update}}$ and $r^{\text{exit}}$ within end-to-end RL, rewarding the correct updating and exiting behaviors respectively. Experiments on various long-context reasoning tasks demonstrate the effectiveness and efficiency of GRU-Mem, which generally outperforms the vanilla MemAgent with up to 400\% times inference speed acceleration.
- Abstract(参考訳): 長期にわたる推論は様々な現実世界のアプリケーションにおいて重要であるが、文脈長が大きくなるにつれて性能劣化に悩まされるため、大規模言語モデル(LLM)では依然として困難である。
最近の研究であるMemAgentは、コンテキストチャンクをRNNのようなループで処理し、最終回答のためのテキストメモリを更新することで、この問題に対処しようとしている。
しかし、この単純で反復的なメモリ更新は2つの重大な欠点に直面している。
(i)証拠のないチャンクでも無差別に更新できるため、メモリは急速に爆発することがある。
(II)ループには出口機構が欠如しており、十分な証拠が収集された後に不要な計算に繋がる。
これらの問題に対処するため,より安定かつ効率的な長文推論のための2つのテキスト制御ゲートを組み込んだGRU-Memを提案する。
具体的には、GRU-Memでは、更新ゲートが開くとメモリのみを更新し、出口ゲートが開くと再帰ループが直ちに終了する。
このような機能を持つモデルを実現するために、エンド・ツー・エンドのRL内で、$r^{\text{update}}$と$r^{\text{exit}}$の2つの報酬信号を導入します。
様々な長文推論タスクの実験では、GRU-Memの有効性と効率が示され、これは一般的にバニラMemAgentを最大400倍の推論速度で上回っている。
関連論文リスト
- CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling [40.705016911274]
本稿では,LLMがメモリ使用量と線形時間複雑度を一定に保ちながら任意の長いシーケンスを処理できる新しいアーキテクチャを提案する。
CoMeTは最小限の微調整で事前訓練されたモデルに統合できる。
CoMeTと32kコンテキストに微調整されたモデルでは、1Mトークンシーケンス内の任意の位置からパスキーを正確に取得することができる。
論文 参考訳(メタデータ) (2026-02-02T07:49:44Z) - CogMem: A Cognitive Memory Architecture for Sustained Multi-Turn Reasoning in Large Language Models [21.427373172124167]
大規模言語モデル(LLM)はシングルターン推論では優れているが、拡張されたマルチターン相互作用よりも精度とコヒーレンスを失うことが多い。
メモリ拡張型LLMアーキテクチャであるCogMemを導入する。
TurnBenchの実験では、この階層化された設計は推論の失敗を軽減し、コンテキストの成長を制御し、拡張された推論チェーン間の一貫性を改善する。
論文 参考訳(メタデータ) (2025-12-16T06:01:08Z) - ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL [48.214881182054164]
本研究では,外部メモリを構造化したトランスアーキテクチャであるEMMURを提案する。
ELMURは、注意窓の向こうに10万倍の有効地平線を拡大する。
最大100万歩の廊下を持つ合成T-Mazeタスクで100%の成功率を達成する。
論文 参考訳(メタデータ) (2025-10-08T15:50:34Z) - Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers [58.98923344096319]
REFORMは、2フェーズアプローチによって、長いコンテキストを効率的に処理する新しい推論フレームワークである。
RULERとBABILongでそれぞれ1Mコンテキスト長で50%以上と27%のパフォーマンス向上を達成した。
また、Infinite-BenchとMM-NIAHのベースラインを上回り、さまざまなタスクやドメインの柔軟性を示す。
論文 参考訳(メタデータ) (2025-06-01T23:49:14Z) - RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。
本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - Memory Gym: Towards Endless Tasks to Benchmark Memory Capabilities of Agents [4.371266695484245]
Memory GymはMortar Mayhem、Mystery Path、Searing Spotlightsという2D部分的に観測可能な環境のスイートを提供する。
これらの環境は、もともと有限のタスクを持ち、革新的で無限のフォーマットに拡張され、"I pack my bag"のような累積記憶ゲームにおけるエスカレーションの課題を反映している。
論文 参考訳(メタデータ) (2023-09-29T12:59:28Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。