論文の概要: MemGym: a Long-Horizon Memory Environment for LLM Agents
- arxiv url: http://arxiv.org/abs/2605.20833v1
- Date: Wed, 20 May 2026 07:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.551479
- Title: MemGym: a Long-Horizon Memory Environment for LLM Agents
- Title(参考訳): MemGym:LLMエージェントの長期記憶環境
- Authors: Wujiang Xu, Yu Wang, Kai Mei, Kaiqu Liang, Zhenting Wang, Mingyu Jin, Han Zhang, Shi-Xiong Zhang, Wenyue Hua, Sambit Sahu, Dimitris N. Metaxas,
- Abstract要約: 本稿では,エージェントメモリのベンチマークであるMemGymを紹介する。
MemGymは、メモリパフォーマンスを推論、検索、ツール使用能力から切り離すメモリアイソレーションスコアを報告している。
MEMGYM-CODEQAとMEMGYM-DRの合成パイプラインは、長さ制御可能であり、各ステージでアブレーションを検証可能であり、下流のシナリオと密に整合している。
- 参考スコア(独自算出の注目度): 69.79226770543049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memory is a central capability for LLM agents operating across long-horizon tasks. Existing memory benchmarks predominantly evaluate retention of personalized information in multi-turn chat scenarios, overlooking the dynamic memory formation that occurs during extended agent execution. Consequently, the memory systems they produce transfer poorly to realistic agentic environments, such as coding and web navigation. We present MemGym, a benchmark for agentic memory that unifies existing agent gyms and in-house memory-grounded pipelines behind one memory-reasoning interface. MemGym spans five evaluation tracks grouped into four agentic regimes: tool-use dialogue (tau2-bench), multi-turn deep-research search (MEMGYM-DR), coding (SWE-Gym and MEMGYM-CODEQA), and computer use (WebArena-Infinity). MemGym reports memory-isolated scores that decouple memory performance from reasoning, retrieval, and tool-use ability, so memory strategies can be ranked without those confounders. Our synthetic pipelines for MEMGYM-CODEQA and MEMGYM-DR are length-controllable, ablation-verified at every stage, and tightly aligned with downstream scenarios. To make evaluation on coding environments academically tractable, we train MemRM, a lightweight reward model (Qwen3-1.7B fine-tuned with QLoRA) that scores compression quality as a fast scalar read in place of full Docker rollouts.
- Abstract(参考訳): メモリはLLMエージェントが長時間のタスクで動作するための中心的な機能である。
既存のメモリベンチマークは、マルチターンチャットシナリオにおけるパーソナライズされた情報の保持を主に評価する。
結果として、それらが生成するメモリシステムは、コーディングやWebナビゲーションといった現実的なエージェント環境への転送が不十分になる。
本稿では,エージェントメモリのベンチマークであるMemGymを紹介する。
MemGymは、ツール使用対話(Tau2-bench)、マルチターンディープ検索(MEMGYM-DR)、コーディング(SWE-GymとMEMGYM-CODEQA)、コンピュータ使用(WebArena-Infinity)の4つのエージェント体制にグループ分けされた5つの評価トラックにまたがる。
MemGymは、メモリパフォーマンスを推論、検索、ツール使用能力から切り離したメモリアイソレーションスコアを報告している。
MEMGYM-CODEQAとMEMGYM-DRの合成パイプラインは、長さ制御可能であり、各ステージでアブレーションを検証可能であり、下流のシナリオと密に整合している。
学術的に学習可能なコーディング環境の評価を行うため、Dockerのロールアウトに代えて高速なスカラー読み込みとして圧縮品質を評価する軽量な報酬モデル(Qwen3-1.7BをQLoRAで微調整)であるMemRMをトレーニングする。
関連論文リスト
- LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues [80.29362825271768]
LongMemEval-V2は、メモリシステムが、カスタマイズされた環境で知識のある同僚になるために必要な経験を得るのに役立つかどうかを評価するためのベンチマークである。
LME-V2には、Webエージェントの5つのコアメモリ能力をカバーする451の質問が含まれている。
AgentRunbook-Rは生の状態観察,イベント,戦略ノートのための知識プールを備えた,効率的なRAGベースのメモリであり,AgentRunbook-Cはトラジェクトリをファイルとして格納し,コードエージェントを起動して,拡張サンドボックスに証拠を収集する。
論文 参考訳(メタデータ) (2026-05-12T17:59:34Z) - SAGE: A Self-Evolving Agentic Graph-Memory Engine for Structure-Aware Associative Memory [40.68349164818526]
本稿では,グラフメモリを動的長期記憶基板としてモデル化する自己進化型エージェントグラフメモリエンジンであるSAGEを紹介する。
SAGEには2つの役割がある: 相互作用履歴から構造化されたグラフメモリを漸進的に構成するメモリライタと、検索とメモリライタへのフィードバックを提供するGraph Foundation Modelベースのメモリリーダである。
論文 参考訳(メタデータ) (2026-05-12T12:47:43Z) - Lightweight LLM Agent Memory with Small Language Models [27.343533336242913]
LightMemは、Small Language Models (SLM)によって駆動されるより優れたエージェントメモリのための軽量メモリシステムである。
我々は,記憶を即時会話のための短期記憶(STM),再利用可能な対話要約のための中期記憶(MTM),統合された知識のための長期記憶(LTM)に整理する。
実験の結果,LoCoMoではF1が平均2.5向上し,より効率的で中央値の低いレイテンシ(83ms検索,581msエンドツーエンド)が得られた。
論文 参考訳(メタデータ) (2026-04-09T04:51:07Z) - MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution [52.29303869050117]
メモリ拡張LDMエージェントは、長期の相互作用をサポートするために外部メモリバンクを保持する。
MemMAはプラグアンドプレイのマルチエージェントフレームワークで、前方と後方の両方の経路に沿ってメモリサイクルを調整する。
論文 参考訳(メタデータ) (2026-03-19T10:15:59Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning [89.55738101744657]
大規模言語モデル(LLM)は、幅広いNLPタスクで印象的な機能を示しているが、基本的にはステートレスである。
本稿では,LLMに外部メモリを積極的に管理・活用する機能を備えた強化学習フレームワークであるMemory-R1を提案する。
論文 参考訳(メタデータ) (2025-08-27T12:26:55Z) - Memory OS of AI Agent [3.8665965906369375]
大きな言語モデル(LLM)は、固定されたコンテキストウィンドウと不十分なメモリ管理から重要な課題に直面します。
本稿では,AIエージェントの総合的かつ効率的なメモリ管理を実現するために,メモリオペレーティングシステム(MemoryOS)を提案する。
論文 参考訳(メタデータ) (2025-05-30T15:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。