論文の概要: Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.08382v1
- Date: Mon, 09 Feb 2026 08:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.128039
- Title: Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning
- Title(参考訳): エンド・ツー・エンド強化学習による圧縮メモリ上の動的ロングコンテキスト推論
- Authors: Zhuoen Chen, Dongfang Li, Meishan Zhang, Baotian Hu, Min Zhang,
- Abstract要約: 本稿では,チャンクワイズ圧縮と選択的メモリリコールに基づく,効率的な長文推論のためのフレームワークを提案する。
このフレームワークは、長い入力をチャンクに分割し、各チャンクを学習圧縮機を用いて圧縮されたメモリ表現に符号化する。
ピークGPUメモリ使用量の最大2倍の削減と,MemAgent上での6倍の推論高速化を実現している。
- 参考スコア(独自算出の注目度): 47.87361916374891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) face significant challenges in long-context processing, including quadratic computational costs, information forgetting, and the context fragmentation inherent in retrieval-augmented generation (RAG). We propose a cognitively inspired framework for efficient long-context inference based on chunk-wise compression and selective memory recall, rather than processing all raw tokens. The framework segments long inputs into chunks and encodes each chunk into compressed memory representations using a learned compressor. A gating module dynamically selects relevant memory blocks, which are then iteratively processed by a reasoning module with an evolving working memory to solve downstream tasks. The compressor and reasoner are jointly optimized via end-to-end reinforcement learning, while the gating module is trained separately as a classifier. Experimental results show that the proposed method achieves competitive accuracy on multi-hop reasoning benchmarks such as RULER-HQA, extrapolates context length from 7K to 1.75M tokens, and offers a favorable accuracy-efficiency trade-off compared to strong long-context baselines. In particular, it achieves up to a 2 times reduction in peak GPU memory usage and a 6 times inference speedup over MemAgent.
- Abstract(参考訳): 大規模言語モデル(LLM)は、二次計算コスト、情報忘れ、検索強化世代(RAG)固有のコンテキスト断片化など、長期コンテキスト処理において重大な課題に直面している。
本稿では,すべての生トークンを処理するのではなく,チャンクワイド圧縮と選択メモリリコールに基づく,効率的な長文推論のための認知的インスピレーション付きフレームワークを提案する。
このフレームワークは、長い入力をチャンクに分割し、各チャンクを学習圧縮機を用いて圧縮されたメモリ表現に符号化する。
ゲーティングモジュールは、関連するメモリブロックを動的に選択し、その後、進化するワーキングメモリを持つ推論モジュールによって反復的に処理され、下流タスクを解決する。
圧縮機と推論器はエンドツーエンドの強化学習により共同最適化され、ゲーティングモジュールは分類器として個別に訓練される。
提案手法は,RULER-HQAなどのマルチホップ推論ベンチマークにおいて,コンテクスト長を7Kから1.75Mトークンに外挿し,強い長コンテキストベースラインと比較して良好な精度・効率のトレードオフを提供する。
特に、ピークGPUメモリ使用量の最大2倍の削減と、MemAgentの6倍の推論高速化を実現している。
関連論文リスト
- SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - Goal-Directed Search Outperforms Goal-Agnostic Memory Compression in Long-Context Memory Tasks [2.7708222692419735]
大規模言語モデル(LLM)において、ヒューマンライクな長期記憶を有効にする方法が重要な問題となっている。
検証可能な報酬(RLVR)を有するエンドツーエンド強化学習エージェントであるSUMERを提案する。
実データに適用した単純な探索手法は、現在の長文メモリタスクにおいて、ゴールに依存しない圧縮アルゴリズムやバイアスのある圧縮アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-11-20T22:45:57Z) - UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression [86.33995240043936]
UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。
生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
論文 参考訳(メタデータ) (2025-09-19T08:47:37Z) - Lag-Relative Sparse Attention In Long Context Training [8.365610885641276]
本稿では,LagKV圧縮法で固定されたLag-Relative Sparse Attention(LRSA)を長期学習後に提案する。
本手法はチャンク・バイ・チャンク・プリフィルを行い, 固定サイズのラグウィンドウにおいて, 最上位のキー値ペアを選択する。
論文 参考訳(メタデータ) (2025-06-13T06:49:53Z) - Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers [58.98923344096319]
REFORMは、2フェーズアプローチによって、長いコンテキストを効率的に処理する新しい推論フレームワークである。
RULERとBABILongでそれぞれ1Mコンテキスト長で50%以上と27%のパフォーマンス向上を達成した。
また、Infinite-BenchとMM-NIAHのベースラインを上回り、さまざまなタスクやドメインの柔軟性を示す。
論文 参考訳(メタデータ) (2025-06-01T23:49:14Z) - Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning [14.33163594016033]
Reasoning Path Compression (RPC) は推論を高速化する訓練のない手法である。
RPCは、完全なKVキャッシュの推論と比較して、QwQ-32Bの生成スループットを最大1.60$times$で改善することを示す。
本研究は, 推理トレースのセマンティック・スパシティを効果的に圧縮に利用し, 推理LSMの効率的な展開に向けた実践的な道筋を提供することを実証した。
論文 参考訳(メタデータ) (2025-05-20T03:21:52Z) - UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.05657299071648]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z) - Recurrent Context Compression: Efficiently Expanding the Context Window of LLM [22.595457889113668]
この研究はRecurrent Context Compression (RCC)と呼ばれる手法を導入し、Transformerベースの大規模言語モデル(LLM)のコンテキストウィンドウ長を効率的に拡張する。
我々は,複数のタスクに対するアプローチを検証し,BLEU4スコアが0.95に近いテキスト再構成タスクで最大32倍の圧縮率を実現し,シーケンス長1Mのパスキー検索タスクで約100%の精度を実現した。
論文 参考訳(メタデータ) (2024-06-10T08:50:59Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。