論文の概要: MemoryCD: Benchmarking Long-Context User Memory of LLM Agents for Lifelong Cross-Domain Personalization
- arxiv url: http://arxiv.org/abs/2603.25973v1
- Date: Thu, 26 Mar 2026 23:28:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.312046
- Title: MemoryCD: Benchmarking Long-Context User Memory of LLM Agents for Lifelong Cross-Domain Personalization
- Title(参考訳): MemoryCD:生涯にわたるクロスドメインパーソナライズのためのLLMエージェントの長期ユーザメモリのベンチマーク
- Authors: Weizhi Zhang, Xiaokai Wei, Wei-Chieh Huang, Zheng Hui, Chen Wang, Michelle Gong, Philip S. Yu,
- Abstract要約: 我々は,最初の大規模ユーザ中心のクロスドメインメモリベンチマークであるtextscMemoryCDを紹介した。
textscMemoryCDは、数年と複数のドメインにわたる認証されたユーザーインタラクションを追跡する。
分析の結果,既存のメモリ手法は様々な領域におけるユーザ満足度には程遠いことが明らかとなった。
- 参考スコア(独自算出の注目度): 39.881485067240455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have expanded context windows to million-token scales, yet benchmarks for evaluating memory remain limited to short-session synthetic dialogues. We introduce \textsc{MemoryCD}, the first large-scale, user-centric, cross-domain memory benchmark derived from lifelong real-world behaviors in the Amazon Review dataset. Unlike existing memory datasets that rely on scripted personas to generate synthetic user data, \textsc{MemoryCD} tracks authentic user interactions across years and multiple domains. We construct a multi-faceted long-context memory evaluation pipeline of 14 state-of-the-art LLM base models with 6 memory method baselines on 4 distinct personalization tasks over 12 diverse domains to evaluate an agent's ability to simulate real user behaviors in both single and cross-domain settings. Our analysis reveals that existing memory methods are far from user satisfaction in various domains, offering the first testbed for cross-domain life-long personalization evaluation.
- Abstract(参考訳): 近年のLLM(Large Language Models)の進歩により、コンテキストウィンドウは100万スケールにまで拡張されているが、メモリ評価のベンチマークは短期的な合成対話に限られている。
Amazon Reviewデータセットにおいて、生涯にわたる実世界の振る舞いから派生した、最初の大規模でユーザ中心のクロスドメインメモリベンチマークである、‘textsc{MemoryCD}’を紹介する。
合成ユーザデータを生成するためにスクリプトされたペルソナに依存する既存のメモリデータセットとは異なり、 \textsc{MemoryCD}は、長年にわたって複数のドメイン間での認証されたユーザインタラクションを追跡する。
エージェントの実際のユーザ動作を単ドメインとクロスドメインの両方でシミュレートする能力を評価するため、12ドメインにわたる4つの異なるパーソナライズタスクに基づいて、6つのメモリメソッドをベースラインとした14の最先端LCMベースモデルからなる多面長コンテキストメモリ評価パイプラインを構築した。
分析の結果,既存のメモリ手法は各ドメインのユーザ満足度には程遠いことが判明し,クロスドメイン・ライフ・ロング・パーソナライズ評価のための最初のテストベッドを提供する。
関連論文リスト
- LMEB: Long-horizon Memory Embedding Benchmark [49.57481835614834]
埋め込みモデルの能力を評価する包括的なフレームワークであるLong-Horizon Memory Embedding Benchmark (LMEB)を紹介する。
LMEBは4つのメモリタイプにまたがる22のデータセットと193のゼロショット検索タスクにまたがる。
我々は、数億から100億のパラメータを含む、広く使われている15の埋め込みモデルを評価した。
論文 参考訳(メタデータ) (2026-03-13T02:09:57Z) - TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA [8.036549927091286]
大規模言語モデル(LLM)は、様々なドメインにわたるテキストベースのコンテキストにおいて強力な推論能力を示した。
コンテキストウィンドウの制限は、長距離推論タスクにおけるモデルの課題を引き起こす。
ツール拡張型自律メモリ検索フレームワーク(TA-Mem)を導入する。
TA-MemはLoCoMoデータセットで評価され、既存のベースラインアプローチよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2026-03-10T07:27:01Z) - EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.84216832544323]
EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。
このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。
広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
論文 参考訳(メタデータ) (2026-01-07T03:14:42Z) - Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents [76.76004970226485]
長期記憶はマルチモーダル大言語モデル(MLLM)エージェントにとって重要な機能である。
Mem-GalleryはMLLMエージェントのマルチモーダル長期会話メモリ評価のための新しいベンチマークである。
論文 参考訳(メタデータ) (2026-01-07T02:03:13Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - Memory Assisted LLM for Personalized Recommendation System [1.8788391002788387]
大規模言語モデル(LLM)は、レコメンデーションタスクの解決に大きな可能性を示している。
メモリアシスト型パーソナライズ LLM (MAP) を提案する。
まず、ユーザ毎に履歴プロファイルを作成し、履歴項目のレーティングなどの好みをキャプチャする。
推薦中、類似性に基づいて関連記憶を抽出し、それをプロンプトに組み込んでパーソナライズされたレコメンデーションを強化する。
論文 参考訳(メタデータ) (2025-05-03T06:24:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。