論文の概要: $\texttt{MemoryRewardBench}$: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.11969v1
- Date: Sat, 17 Jan 2026 09:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.399251
- Title: $\texttt{MemoryRewardBench}$: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models
- Title(参考訳): $\texttt{MemoryRewardBench}$: 大規模言語モデルにおける長期メモリ管理のためのリワードモデルのベンチマーク
- Authors: Zecheng Tang, Baibei Ji, Ruoxi Sun, Haitian Wang, WangJie You, Zhang Yijun, Wenpeng Zhu, Ji Qi, Juntao Li, Min Zhang,
- Abstract要約: これは、RMが長期記憶管理プロセスを評価する能力を体系的に研究する最初のベンチマークである。
$textttMemoryRewardBench$は、長文理解と長文生成の両方をカバーし、コンテキスト長は8Kから128Kのトークンである。
13個の最先端RMの評価は、オープンソースモデルとプロプライエタリモデルの間の性能差が減少していることを示し、新しい世代のモデルはパラメータ数に関係なく、前世代モデルよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 40.965722377085456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing works increasingly adopt memory-centric mechanisms to process long contexts in a segment manner, and effective memory management is one of the key capabilities that enables large language models to effectively propagate information across the entire sequence. Therefore, leveraging reward models (RMs) to automatically and reliably evaluate memory quality is critical. In this work, we introduce $\texttt{MemoryRewardBench}$, the first benchmark to systematically study the ability of RMs to evaluate long-term memory management processes. $\texttt{MemoryRewardBench}$ covers both long-context comprehension and long-form generation tasks, featuring 10 distinct settings with different memory management patterns, with context length ranging from 8K to 128K tokens. Evaluations on 13 cutting-edge RMs indicate a diminishing performance gap between open-source and proprietary models, with newer-generation models consistently outperforming their predecessors regardless of parameter count. We further expose the capabilities and fundamental limitations of current RMs in evaluating LLM memory management across diverse settings.
- Abstract(参考訳): 既存の作業では、長いコンテキストをセグメント的に処理するためのメモリ中心のメカニズムがますます採用されている。
したがって、メモリ品質を自動的かつ確実に評価するために、報酬モデル(RM)を活用することが重要である。
本稿では,RMが長期記憶管理プロセスを評価する能力を体系的に研究する最初のベンチマークである$\texttt{MemoryRewardBench}$を紹介する。
$\texttt{MemoryRewardBench}$は、長文理解と長文生成の両方をカバーし、異なるメモリ管理パターンを持つ10の異なる設定を持ち、コンテキスト長は8Kから128Kのトークンである。
13個の最先端RMの評価は、オープンソースモデルとプロプライエタリモデルの間の性能差が減少していることを示し、新しい世代のモデルはパラメータ数に関係なく、前世代モデルよりも一貫して優れていた。
我々は、様々な設定でLCMメモリ管理を評価する際に、現在のRMの能力と基本的限界をさらに明らかにする。
関連論文リスト
- Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents [76.76004970226485]
長期記憶はマルチモーダル大言語モデル(MLLM)エージェントにとって重要な機能である。
Mem-GalleryはMLLMエージェントのマルチモーダル長期会話メモリ評価のための新しいベンチマークである。
論文 参考訳(メタデータ) (2026-01-07T02:03:13Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - MemLoRA: Distilling Expert Adapters for On-Device Memory Systems [71.32550994522738]
メモリ拡張大言語モデル(LLM)は対話中に顕著な一貫性を示す。
MemLoRAは、小さなVision-Language Modelを統合する新しいメモリシステムである。
VLM統合MemLoRA-Vはキャプションベースのアプローチで大幅に改善されている。
論文 参考訳(メタデータ) (2025-12-04T12:56:30Z) - Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning [89.55738101744657]
大規模言語モデル(LLM)は、幅広いNLPタスクで印象的な機能を示しているが、基本的にはステートレスである。
本稿では,LLMに外部メモリを積極的に管理・活用する機能を備えた強化学習フレームワークであるMemory-R1を提案する。
論文 参考訳(メタデータ) (2025-08-27T12:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。