論文の概要: InfoMem: Training Long-Context Memory Agents with Answer-Conditioned Information Gain
- arxiv url: http://arxiv.org/abs/2606.03329v1
- Date: Tue, 02 Jun 2026 08:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.874728
- Title: InfoMem: Training Long-Context Memory Agents with Answer-Conditioned Information Gain
- Title(参考訳): InfoMem: Answer-Conditioned Information Gainによる長期記憶エージェントのトレーニング
- Authors: Tiancheng Han, Yong Li, Wuzhou Yu, Qiaosheng Zhang, Wenqi Shao,
- Abstract要約: 長いコンテキストタスクは、大きなコンテキストから回答関連情報を識別し保存するためにLLMを必要とする。
既存のRLベースのチャンクワイドエージェントは、スパースファイナルアンサー報酬に依存するか、メモリと検索アクションの語彙中間報酬を使用する。
本稿では,問合せ情報を用いた最終記憶ユーティリティの評価を行う,チャンクワイドメモリエージェントの学習のための報奨機構であるInfoMemを提案する。
- 参考スコア(独自算出の注目度): 26.098768400948614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context tasks require LLMs to identify and preserve answer-relevant information from large contexts. Chunk-wise memory agents address this issue by sequentially reading document chunks, updating a compact memory, and generating the final answer from the accumulated memory. However, existing RL-based chunk-wise agents either rely on sparse final-answer rewards or use lexical intermediate rewards for memory and retrieval actions. These signals supervise task success or local overlap, but do not directly evaluate whether the final memory supports the ground-truth answer. We propose InfoMem, a reward mechanism for training chunk-wise memory agents that evaluates final-memory utility using answer-conditioned information. InfoMem measures how much the final memory increases the model's per-token log-likelihood of the ground-truth answer. To stabilize RL optimization, InfoMem applies this signal only to successful trajectories and normalizes it before reward composition. Under the same GRPO framework and training budget, InfoMem improves long-context memory-agent performance over comparable memory-agent RL baselines. Analyses show that effective final-memory rewards should operate on successful trajectories, be normalized before reward composition, and be conditioned on the answer rather than the query. Our code is available at https://github.com/GenSouKa1/InfoMem.
- Abstract(参考訳): 長いコンテキストタスクは、大きなコンテキストから回答関連情報を識別し保存するためにLLMを必要とする。
チャンクワイドメモリエージェントは、文書チャンクを逐次読み出し、コンパクトメモリを更新し、蓄積したメモリから最終回答を生成することでこの問題に対処する。
しかし、既存のRLベースのチャンクワイドエージェントは、スパースファイナル・アンサー・報酬を頼りにするか、メモリと検索アクションに語彙中間報酬を使用する。
これらの信号はタスク成功や局所的な重複を監督するが、最終記憶が根本真正解をサポートするかどうかを直接評価しない。
本稿では,問合せ情報を用いた最終記憶ユーティリティの評価を行う,チャンクワイドメモリエージェントの学習のための報奨機構であるInfoMemを提案する。
InfoMemは、最終メモリが基底真実解のトーケン単位のログ類似度をどれだけ増大させるかを測定する。
RL最適化を安定させるために、InfoMemはこの信号を軌道にのみ適用し、報酬合成の前に正規化する。
同じGRPOフレームワークとトレーニング予算の下で、InfoMemは、同等のメモリエージェントRLベースラインよりも長いコンテキストメモリエージェントのパフォーマンスを改善している。
分析によれば、効果的な最終メモリ報酬は軌道上で動作し、報酬の構成の前に正規化され、クエリよりも答えに条件付けされる。
私たちのコードはhttps://github.com/GenSouKa1/InfoMem.comから入手可能です。
関連論文リスト
- MemTrain: Self-Supervised Context Memory Training [40.64801276577851]
既存のメモリエージェントアプローチは通常、下流タスクで強化学習を施したエンドツーエンドで訓練される。
MemTrainは、LLMエージェントのコンテキストメモリ能力を高めるための自己教師型トレーニングフレームワークである。
MemTrainは、異なるモデル間のダウンストリームメモリ集約推論性能を一貫して改善する。
論文 参考訳(メタデータ) (2026-06-02T05:56:24Z) - ElasticMem: Latent Memory as a Learnable Resource for LLM Agents [25.70415765824153]
ElasticMemは、メモリを弾性潜在リソースとして使用することを学ぶメモリ拡張LDMフレームワークである。
メモリ集約型QAとエンボディエージェント制御を対象とし, メモリスタイト上でのElasticMemの評価を行った。
論文 参考訳(メタデータ) (2026-05-29T00:34:40Z) - MemGym: a Long-Horizon Memory Environment for LLM Agents [69.79226770543049]
本稿では,エージェントメモリのベンチマークであるMemGymを紹介する。
MemGymは、メモリパフォーマンスを推論、検索、ツール使用能力から切り離すメモリアイソレーションスコアを報告している。
MEMGYM-CODEQAとMEMGYM-DRの合成パイプラインは、長さ制御可能であり、各ステージでアブレーションを検証可能であり、下流のシナリオと密に整合している。
論文 参考訳(メタデータ) (2026-05-20T07:25:33Z) - EvoMemBench: Benchmarking Agent Memory from a Self-Evolving Perspective [21.66000179149483]
EvoMemBenchは、メモリスコープとメモリ内容の2つの軸に沿って編成された統一ベンチマークである。
本稿では,15個の代表記憶法と強い長文ベースラインを標準プロトコルで比較する。
結果は、現在のメモリシステムは、まだ一般的な解決策には程遠いことを示している。
論文 参考訳(メタデータ) (2026-05-18T13:54:38Z) - MemRerank: Preference Memory for Personalized Product Reranking [14.982376048234386]
本稿では,ユーザの購入履歴を簡潔でクエリ非依存な信号に抽出し,パーソナライズされた製品再品位を実現するための選好記憶フレームワークであるMemRerankを提案する。
2つのLCMベースのリランカによる実験では、MemRerankは、無メモリ、生の履歴、および既製のメモリベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-03-31T04:16:18Z) - MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning [78.46301394559903]
大きな言語モデル(LLM)は、長期化タスクにますます使われています。
現在の手法はコストと精度のトレードオフに直面している。
MemSifterは、メモリ検索プロセスを小さなプロキシモデルにオフロードする新しいフレームワークである。
論文 参考訳(メタデータ) (2026-03-03T02:57:38Z) - NextMem: Towards Latent Factual Memory for LLM-based Agents [58.35585202907478]
NextMemは、自動回帰型オートエンコーダを使用して、潜時メモリを効率的に構築する、潜時ファクトメモリフレームワークである。
大規模な実験は、NextMemが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-26T14:35:27Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。