論文の概要: Personalize-then-Store: Benchmarking and Learning Personalized Memory for Long-horizon Agents
- arxiv url: http://arxiv.org/abs/2605.25535v1
- Date: Mon, 25 May 2026 07:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.447511
- Title: Personalize-then-Store: Benchmarking and Learning Personalized Memory for Long-horizon Agents
- Title(参考訳): Personalize-then-Store:ロングホライゾンエージェントのベンチマークとパーソナライズドメモリの学習
- Authors: Yeonjun In, Wonjoong Kim, Sangwu Park, Kanghoon Yoon, Chanyoung Park,
- Abstract要約: 既存の大規模言語モデル(LLM)ベースのメモリシステムは、基本的な現実を覆い隠す、普遍的で静的なポリシーを適用している。
パーソナライズされたメモリシステムを評価するための最初のベンチマークであるPerMemBenchを紹介する。
本稿では,過渡セッションのメモリ操作を選択的にバイパスする軽量フレームワークであるセッションレベルのストレージゲーティングを提案する。
- 参考スコア(独自算出の注目度): 20.22872890297194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing large language model (LLM) based memory systems apply universal, static policies that overlook a fundamental reality: the contexts that are worth storing in memory are different across users. This misalignment wastes limited memory budget on transient interactions while failing to preserve critical context for long horizon tasks. To address this gap, we investigate an underexplored question: can LLM based memory systems learn personalized memory policies? We introduce PerMemBench, the first benchmark for evaluating personalized memory systems, featuring multi year, multi domain interaction histories across diverse user personas. We further present the first empirical study of memory personalization, proposing session level storage gating, a lightweight framework that selectively bypasses memory operations for transient sessions. Our study confirms that personalization yields substantial retention gains under perfect gating, yet reveals that accurate gating remains an open and critical challenge.
- Abstract(参考訳): 既存の大規模言語モデル(LLM)ベースのメモリシステムは、基本的な現実を覆い隠す、普遍的で静的なポリシーを適用している。
このミスアライメントは、過渡的な相互作用において限られたメモリ予算を無駄にし、長い水平方向タスクにとって重要なコンテキストを保たない。
LLMベースのメモリシステムは、パーソナライズされたメモリポリシーを学習できるか?
我々はパーソナライズされたメモリシステムを評価するための最初のベンチマークであるPerMemBenchを紹介した。
さらに,一時セッションのメモリ操作を選択的にバイパスする軽量なフレームワークであるセッションレベルのストレージゲーティングを提案する。
我々の研究は、パーソナライゼーションが完全なゲーティングの下でかなりの保持率を得ることを確認したが、正確なゲーティングがオープンで重要な課題であることは明らかである。
関連論文リスト
- EvoMemBench: Benchmarking Agent Memory from a Self-Evolving Perspective [21.66000179149483]
EvoMemBenchは、メモリスコープとメモリ内容の2つの軸に沿って編成された統一ベンチマークである。
本稿では,15個の代表記憶法と強い長文ベースラインを標準プロトコルで比較する。
結果は、現在のメモリシステムは、まだ一般的な解決策には程遠いことを示している。
論文 参考訳(メタデータ) (2026-05-18T13:54:38Z) - From Recall to Forgetting: Benchmarking Long-Term Memory for Personalized Agents [38.52713500119118]
Memoraは、数週間から数ヶ月のユーザ会話にまたがる長期メモリベンチマークです。
ベンチマークでは、記憶、推論、レコメンデーションの3つのメモリグラウンドタスクを評価している。
FAMA(Forgetting-Aware Memory Accuracy)は、古いメモリや無効メモリへの依存を罰するメトリクスである。
論文 参考訳(メタデータ) (2026-04-21T21:31:01Z) - AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents [49.63422082885992]
長軸対話エージェントのための適応型ユーザ中心メモリフレームワークであるAdaMemを提案する。
AdaMemは対話履歴をワーキング、エピソディック、ペルソナ、グラフメモリに整理する。
LoCoMo と PERSONAMEM ベンチマーク上での AdaMem の評価を行った。
論文 参考訳(メタデータ) (2026-03-17T13:22:54Z) - According to Me: Long-Term Personalized Referential Memory QA [27.402232752643275]
ATM-Benchはマルチモーダル、マルチソースパーソナライズされた参照メモリQAのための最初のベンチマークである。
ガイドメモリ(SGM)は、異なるソースから派生したメモリアイテムを構造的に表現する。
ATM-Bench-Hardセットでは性能が(20%の精度で)低いことが分かりました。
論文 参考訳(メタデータ) (2026-03-02T15:42:29Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.84216832544323]
EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。
このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。
広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
論文 参考訳(メタデータ) (2026-01-07T03:14:42Z) - Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents [76.76004970226485]
長期記憶はマルチモーダル大言語モデル(MLLM)エージェントにとって重要な機能である。
Mem-GalleryはMLLMエージェントのマルチモーダル長期会話メモリ評価のための新しいベンチマークである。
論文 参考訳(メタデータ) (2026-01-07T02:03:13Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - Multiple Memory Systems for Enhancing the Long-term Memory of Agent [9.43633399280987]
MemoryBankやA-MEMといった既存の手法は、記憶されているメモリの質が劣っている。
我々は認知心理学理論にインスパイアされた多重記憶システムを設計した。
論文 参考訳(メタデータ) (2025-08-21T06:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。