論文の概要: InfMem: Learning System-2 Memory Control for Long-Context Agent
- arxiv url: http://arxiv.org/abs/2602.02704v1
- Date: Mon, 02 Feb 2026 19:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.025843
- Title: InfMem: Learning System-2 Memory Control for Long-Context Agent
- Title(参考訳): InfMem:Long-Context Agentのための学習システム-2のメモリ制御
- Authors: Xinyu Wang, Mingze Li, Peng Lu, Xiao-Wen Chang, Lifeng Shang, Jinping Li, Fei Mi, Prasanna Parthasarathi, Yufei Cui,
- Abstract要約: InfMemは、PreThink-Retrieve-Writeプロトコルを介してSystem-2スタイルの制御をインスタンス化する制御中心のエージェントである。
32kから100Mまでの超長期のQAベンチマークでは、InfMemはバックボーン全体でMemAgentを一貫して上回っている。
- 参考スコア(独自算出の注目度): 43.413381779578266
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reasoning over ultra-long documents requires synthesizing sparse evidence scattered across distant segments under strict memory constraints. While streaming agents enable scalable processing, their passive memory update strategy often fails to preserve low-salience bridging evidence required for multi-hop reasoning. We propose InfMem, a control-centric agent that instantiates System-2-style control via a PreThink-Retrieve-Write protocol. InfMem actively monitors evidence sufficiency, performs targeted in-document retrieval, and applies evidence-aware joint compression to update a bounded memory. To ensure reliable control, we introduce a practical SFT-to-RL training recipe that aligns retrieval, writing, and stopping decisions with end-task correctness. On ultra-long QA benchmarks from 32k to 1M tokens, InfMem consistently outperforms MemAgent across backbones. Specifically, InfMem improves average absolute accuracy by +10.17, +11.84, and +8.23 points on Qwen3-1.7B, Qwen3-4B, and Qwen2.5-7B, respectively, while reducing inference time by $3.9\times$ on average (up to $5.1\times$) via adaptive early stopping.
- Abstract(参考訳): 超長い文書に対する推論には、厳密なメモリ制約の下で遠くのセグメントに散在するスパースエビデンスを合成する必要がある。
ストリーミングエージェントはスケーラブルな処理を可能にするが、そのパッシブメモリ更新戦略は、マルチホップ推論に必要な低い信頼性のブリッジングエビデンスを保存するのに失敗することが多い。
InfMemは、PreThink-Retrieve-Writeプロトコルを介してSystem-2スタイルの制御をインスタンス化する制御中心のエージェントである。
InfMemは、エビデンスを積極的に監視し、ターゲット文書検索を行い、エビデンスを意識した共同圧縮を適用して境界メモリを更新する。
信頼性の高い制御を実現するために,検索,書き込み,決定の停止をエンドタスクの正確性に整合させる,実用的なSFT-to-RLトレーニングレシピを導入する。
32kから100Mまでの超長期のQAベンチマークでは、InfMemはバックボーン全体でMemAgentを一貫して上回っている。
具体的には、InfMemはQwen3-1.7B、Qwen3-4B、Qwen2.5-7Bの平均絶対精度を+10.17、+11.84、+8.23ポイント改善し、適応的な早期停止により平均3.9\times$(最大5.1\times$)の推論時間を下げる。
関連論文リスト
- Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts [68.79341332280062]
長いコンテキストでの大規模言語モデル(LLM)のトレーニングは、トレーニング時間ではなく、GPUメモリの異常なオーバーヘッドによって厳しく制限される。
この障壁に直面するメモリ効率の高いトレーニングシステムOOMBを紹介します。
本手法では,オンザフライアクティベーション・リコンピュテーションを備えたチャンク・リカレント・トレーニング・フレームワークを用いて,一定のアクティベーションメモリフットプリントを維持する。
論文 参考訳(メタデータ) (2026-02-02T13:52:40Z) - Mem-T: Densifying Rewards for Long-Horizon Memory Agents [23.19373149519922]
我々は,動的更新やストリーミング入力によるマルチターン検索を行うために,軽量な階層型メモリデータベースと対話する自律メモリエージェントMem-Tを紹介する。
また,木誘導型強化学習フレームワークであるMoT-GRPOを提案する。
論文 参考訳(メタデータ) (2026-01-30T14:23:33Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - MemR$^3$: Memory Retrieval via Reflective Reasoning for LLM Agents [29.652985606497882]
私たちは、自律的で正確で互換性のあるエージェントシステムとして、メモリ検索を構築します。
MemR$3$は、2つの中核的なメカニズムを持つ: 1) 解答品質を最適化するために検索、反映、回答のアクションを選択するルータ; 2) 解答プロセスを透過的に描画し、証拠収集プロセスを追跡するグローバルエビデンスギャップトラッカー。
論文 参考訳(メタデータ) (2025-12-23T10:49:42Z) - QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management [81.24674400474989]
QwenLong-L1.5は、体系的なポストトレーニングイノベーションを通じて優れた長文推論機能を提供するモデルである。
我々は,グローバルに分散した証拠に対してマルチホップシーケンスを必要とする難解な推論タスクを生成するための体系的枠組みを開発する。
我々は,4Mトークンを超えるタスクに対して,単一パス推論と反復的メモリベース処理をシームレスに統合するマルチエクスプロイト融合RLトレーニングを用いたメモリ管理フレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-15T04:11:11Z) - Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution [52.76038908826961]
我々は静的ストレージと動的推論のギャップを埋めるため、$textbfReMe$ ($textitRemember Me, Refine Me$)を提案する。
ReMeは3つのメカニズムを通じてメモリライフサイクルを革新する: $textitmulti-faceted distillation$, きめ細かい経験を抽出する。
BFCL-V3とAppWorldの実験では、ReMeが新しい最先端のエージェントメモリシステムを確立している。
論文 参考訳(メタデータ) (2025-12-11T14:40:01Z) - MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.27233666920618]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。
それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。
我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文 参考訳(メタデータ) (2025-11-04T18:27:39Z) - Look Back to Reason Forward: Revisitable Memory for Long-Context LLM Agents [33.617262543252494]
本稿では、メモリ履歴全体からの選択的検索を可能にするコールバック強化メモリを備えたメモリ拡張エージェントReMemR1を提案する。
また,RLMLR(Reinforcement Learning with Multi-Level Rewards)を提案する。
論文 参考訳(メタデータ) (2025-09-27T01:36:46Z) - PBFT-Backed Semantic Voting for Multi-Agent Memory Pruning [0.0]
本稿では,マルチエージェントシステム(MAS)における同期メモリプルーニングを可能にするCo-Forgetting Protocolを提案する。
1) エージェントが軽量な DistilBERT モデルを用いて、その内容と現在の運用状況に基づいて、メモリアイテムの関連性を評価すること、2) 時間的地平線をまたいで、その年齢とアクセス頻度に基づいて、メモリに重要性を割り当てるマルチスケールの時間的減衰関数、(3) 実践的ビザンチンフォールトトレランス(PBFT)に基づくコンセンサス機構により、メモリアイテムの保持または破棄の決定が、適格でフォールトトレラントなエージェントによって合意されることを保証すること、である。
論文 参考訳(メタデータ) (2025-06-19T08:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。