論文の概要: Look Back to Reason Forward: Revisitable Memory for Long-Context LLM Agents
- arxiv url: http://arxiv.org/abs/2509.23040v1
- Date: Sat, 27 Sep 2025 01:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.999085
- Title: Look Back to Reason Forward: Revisitable Memory for Long-Context LLM Agents
- Title(参考訳): Reason Forwardを振り返って - 長期LLMエージェントのリビジタブルメモリ
- Authors: Yaorui Shi, Yuxin Chen, Siyuan Wang, Sihang Li, Hengxing Cai, Qi Gu, Xiang Wang, An Zhang,
- Abstract要約: 本稿では、メモリ履歴全体からの選択的検索を可能にするコールバック強化メモリを備えたメモリ拡張エージェントReMemR1を提案する。
また,RLMLR(Reinforcement Learning with Multi-Level Rewards)を提案する。
- 参考スコア(独自算出の注目度): 33.617262543252494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models face challenges in long-context question answering, where key evidence of a query may be dispersed across millions of tokens. Existing works equip large language models with a memory corpus that is dynamically updated during a single-pass document scan, also known as the "memorize while reading" methods. While this approach scales efficiently, it suffers from irreversible forward-only processing, information loss through overwriting, and sparse reinforcement learning signals. To tackle these challenges, we present ReMemR1, a memory-augmented agent with callback-enhanced memory that allows selective retrieval from the entire memory history and allows non-linear reasoning and revisiting of early evidence. To further strengthen training, we propose Reinforcement Learning with Multi-Level Rewards (RLMLR), which combines final-answer rewards with dense, step-level signals that guide effective memory use. Together, these contributions mitigate information degradation, improve supervision, and support multi-hop memory utilizing. Experiments on long-document QA show significant gains over existing memory-based approaches, which validates ReMemR1 as an effective solution for long-context reasoning agents.
- Abstract(参考訳): 大規模言語モデルは、クエリの重要な証拠が数百万のトークンに分散される可能性のある、長期コンテキストの質問応答において、課題に直面している。
既存の作業では、シングルパスドキュメントスキャン中に動的に更新されるメモリコーパスを、大きな言語モデルに装備している。
このアプローチは効率的にスケールするが、非可逆なフォワードオンリーの処理、上書きによる情報損失、疎密な強化学習信号に悩まされる。
これらの課題に対処するために,コールバック強化メモリを備えたメモリ拡張エージェントであるReMemR1を提案する。
トレーニングをさらに強化するために,複数レベルリワードを用いた強化学習(Reinforcement Learning with Multi-Level Rewards, RLMLR)を提案する。
これらのコントリビューションは、情報劣化を軽減し、監督を改善し、マルチホップメモリの利用をサポートする。
長期文書QAの実験は、ReMemR1を長文推論エージェントの効果的なソリューションとして検証し、既存のメモリベースのアプローチよりも大幅に向上した。
関連論文リスト
- ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory [21.4675019810992]
概念レベルのメモリは再利用され、ソリューショントレースから抽出されたモジュラー抽象化が自然言語に格納される。
我々は、合成一般化と抽象的推論を強調するベンチマークARC-AGIを評価する。
抽象概念は最も一貫したメモリ設計であり、全てのテストされた推論計算スケールでベースラインを上回ります。
論文 参考訳(メタデータ) (2025-09-04T17:54:19Z) - Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning [59.16831804985279]
大規模言語モデル(LLM)は、幅広いNLPタスクで印象的な機能を示しているが、基本的にはステートレスである。
この制限に対処する最近の取り組みは、外部メモリバンクでLLMを増強することが多いが、既存のパイプラインのほとんどは静的で学習されている。
本稿では,LLMに外部メモリを積極的に管理・活用する機能を備えた強化学習フレームワークであるMemory-R1を提案する。
論文 参考訳(メタデータ) (2025-08-27T12:26:55Z) - In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents [70.12342024019044]
大規模言語モデル(LLM)は、オープンエンド対話において大きな進歩を遂げているが、関連する情報の保持と取得ができないため、その有効性は制限されている。
本稿では,長期対話エージェントのための新しいメカニズムであるリフレクティブメモリ管理(RMM)を提案する。
RMMは、LongMemEvalデータセットのメモリ管理なしでベースラインよりも10%以上精度が向上している。
論文 参考訳(メタデータ) (2025-03-11T04:15:52Z) - Saliency-Guided Hidden Associative Replay for Continual Learning [13.551181595881326]
継続学習(Continuous Learning)は、人間の学習に似た一連のタスクを通じてニューラルネットワークをトレーニングすることに焦点を当てた、次世代AIの急成長する領域である。
本稿では,継続的学習のためのSaliency Guided Hidden Associative Replayを提案する。
この新しいフレームワークは、アソシエイトメモリをリプレイベースの戦略でシナジする。SHARCは主にスパースメモリエンコーディングを通じて、有能なデータセグメントをアーカイブする。
論文 参考訳(メタデータ) (2023-10-06T15:54:12Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models [30.48902594738911]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。