論文の概要: GroupMemBench: Benchmarking LLM Agent Memory in Multi-Party Conversations
- arxiv url: http://arxiv.org/abs/2605.14498v2
- Date: Sat, 16 May 2026 21:14:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.000124
- Title: GroupMemBench: Benchmarking LLM Agent Memory in Multi-Party Conversations
- Title(参考訳): GroupMemBench: 多人数会話におけるLLMエージェントメモリのベンチマーク
- Authors: Jingbo Yang, Kwei-Herng Lai, Xiaowen Wang, Shiyu Chang, Yaar Harari, Evgeniy Gabrilovich,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、ますますパーソナルアシスタントや職場の協力者として機能している。
既存のメモリシステムとベンチマークは、Dyadicのシングルユーザ設定を中心に構築されている。
グループメモリの3つの特性を公開するベンチマークであるGroupMemBenchを紹介する。
- 参考スコア(独自算出の注目度): 25.703133924514884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents increasingly serve as personal assistants and workplace collaborators, where their utility depends on memory systems that extract, retrieve, and apply information across long-running conversations. However, both existing memory systems and benchmarks are built around the dyadic, single-user setup, even though real deployments routinely span groups and channels with multiple users interacting with the agent and with each other. This mismatch leaves three properties of group memory unmeasured: (i) group dynamics that go beyond concatenated one-on-one chats, (ii) speaker-grounded belief tracking, where the per-user memory modeling is needed, and (iii) audience-adapted language, where Theory-of-Mind shifts produce role-specific vocabulary. We introduce GroupMemBench, a benchmark that exposes all three. A graph-grounded synthesis pipeline produces multi-party conversations with controllable reply structure and conditions each message on per-user personas and target audiences. An adversarial query pipeline then binds every question to a specific asker across six categories, spanning multi-hop reasoning, knowledge update, term ambiguity, user-implicit reasoning, temporal reasoning, and abstention, and iteratively searches challenging, realistic queries that reflect comprehensive memory capability. Benchmarking leading memory systems exposes a sharp collapse: the strongest one reaches only 46.0% average accuracy, with knowledge update at 27.1% and term ambiguity at 37.7%, while a simple BM25 baseline matches or exceeds most agent memory systems. This indicates current memory ingestion erases the structural and lexical features group memory depends on, leaving multi-user memory far from solved.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントはますますパーソナルアシスタントや職場協力者として機能し、そのユーティリティは長期にわたる会話を通じて情報を抽出、取得、適用するメモリシステムに依存している。
しかしながら、既存のメモリシステムとベンチマークはどちらも、エージェントと対話する複数のユーザがいるグループやチャネルを実際にデプロイしているにも関わらず、Dyadic、シングルユーザ設定を中心に構築されている。
このミスマッチは、グループメモリの3つの特性を未測定のまま残している。
(i)1対1のチャットを1対1でまとめる以上のグループダイナミクス。
(II) ユーザ毎のメモリモデリングが必要な話者地上信条追跡
(三)「自由論」が役割特化語彙を創出する「聴衆適応言語」。
3つすべてを公開するベンチマークであるGroupMemBenchを紹介します。
グラフ基底合成パイプラインは、制御可能な応答構造と、ユーザごとのペルソナとターゲットオーディエンスに対する各メッセージの条件を備えた多人数会話を生成する。
逆クエリパイプラインは、複数のホップ推論、知識更新、用語のあいまいさ、ユーザによる推論、時間的推論、禁忌といった6つのカテゴリにわたる特定のアスカーにすべての質問をバインドし、包括的なメモリ能力を反映した挑戦的で現実的なクエリを反復的に検索する。
最強のメモリシステムは平均46.0%に達し、知識の更新は27.1%、曖昧さは37.7%、単純なBM25ベースラインはほとんどのエージェントメモリシステムと一致している。
これは、現在のメモリの取り込みによって、グループメモリが依存する構造的特徴と語彙的特徴が消去され、マルチユーザメモリは解決から遠ざかっていることを示している。
関連論文リスト
- AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents [49.63422082885992]
長軸対話エージェントのための適応型ユーザ中心メモリフレームワークであるAdaMemを提案する。
AdaMemは対話履歴をワーキング、エピソディック、ペルソナ、グラフメモリに整理する。
LoCoMo と PERSONAMEM ベンチマーク上での AdaMem の評価を行った。
論文 参考訳(メタデータ) (2026-03-17T13:22:54Z) - Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation [22.803751188961865]
検索は類似性マッチングを超えて移動し、代わりに潜在コンポーネントを操作するべきだと我々は主張する。
我々は、無傷ユニットの階層を構築し、検索可能な高レベルノード組織を維持するxMemoryを提案する。
論文 参考訳(メタデータ) (2026-02-02T12:04:58Z) - EverMemBench: Benchmarking Long-Term Interactive Memory in Large Language Models [16.865998112859604]
EverMemBenchは、100万以上のトークンにまたがる多人数のマルチグループ会話を特徴とするベンチマークである。
EverMemBenchは、1000以上のQAペアを通じて3次元にわたるメモリシステムを評価する。
論文 参考訳(メタデータ) (2026-02-01T16:13:08Z) - OP-Bench: Benchmarking Over-Personalization for Memory-Augmented Personalized Conversational Agents [55.27061195244624]
オーバーパーソナライゼーションを3つのタイプに分類する。
エージェントは不要な場合でも、ユーザメモリを取得およびオーバーアタッチする傾向があります。
我々の研究は、メモリ拡張対話システムにおいて、より制御可能で適切なパーソナライズに向けた最初の一歩を踏み出した。
論文 参考訳(メタデータ) (2026-01-20T08:27:13Z) - EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.84216832544323]
EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。
このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。
広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
論文 参考訳(メタデータ) (2026-01-07T03:14:42Z) - Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents [76.76004970226485]
長期記憶はマルチモーダル大言語モデル(MLLM)エージェントにとって重要な機能である。
Mem-GalleryはMLLMエージェントのマルチモーダル長期会話メモリ評価のための新しいベンチマークである。
論文 参考訳(メタデータ) (2026-01-07T02:03:13Z) - Hindsight is 20/20: Building Agent Memory that Retains, Recalls, and Reflects [11.300084544174894]
エージェントメモリを推論のための構造化第1級基板として扱うメモリアーキテクチャであるHindsightを提案する。
情報の追加、アクセス、更新の方法を管理する3つのコア操作 – 保持、リコール、リフレクション – をサポートしている。
オープンソースの20Bモデルは、全文ベースラインで全体の精度を39%から83.6%に引き上げる。
論文 参考訳(メタデータ) (2025-12-14T19:47:23Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。