論文の概要: MemConflict: Evaluating Long-Term Memory Systems Under Memory Conflicts
- arxiv url: http://arxiv.org/abs/2605.20926v1
- Date: Wed, 20 May 2026 09:11:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.591802
- Title: MemConflict: Evaluating Long-Term Memory Systems Under Memory Conflicts
- Title(参考訳): MemConflict: 長期記憶システムの評価
- Authors: Zhen Tao, Jinxiang Zhao, Peng Liu, Dinghao Xi, Yanfang Chen, Wei Xu, Zhiyu Li,
- Abstract要約: 本稿では,メモリの妥当性をクエリ条件付きフィットネス・フォー・ユース問題として扱う診断フレームワークを提案する。
MemConflictは、時間的妥当性、事実的正確性、文脈的適用性に関する動的、静的、条件的衝突を形式化する。
構造化されたユーザプロファイルから制御されたロングホライズン履歴をシミュレートし、クロスセッションコンフリクトを導入し、セマンティックに類似したイントラクタを注入して、メモリ候補間の競合を発生させる。
- 参考スコア(独自算出の注目度): 19.9199366981741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term memory systems enable conversational agents based on large language models (LLMs) to retain, retrieve, and apply user-specific information across multi-session interactions. However, existing evaluations mainly assess outcome-level performance or temporal updating, providing limited insight into how systems retrieve and rank temporally valid, factually correct, and contextually applicable memory evidence under conflicting alternatives. To address this gap, we propose MemConflict, a diagnostic framework that treats memory validity as a query-conditioned fitness-for-use problem. MemConflict formalizes dynamic, static, and conditional conflicts over temporal validity, factual correctness, and contextual applicability. It simulates controlled long-horizon histories from structured user profiles, introduces cross-session conflicts, and injects semantically similar distractors to create competition among memory candidates. The resulting multi-session dialogue benchmark supports black-box evaluation of final answers and white-box analysis of supporting-memory retrieval and ranking. Experiments on six representative long-term memory systems show uneven strengths across conflict types, with answer correctness often diverging from memory retrieval and ranking. Sensitivity analyses reveal that longer histories, distractors, implicit queries, and larger conflict distances degrade performance. Diagnostics show failures from missing supporting memories and ineffective use of retrieved memories. Collectively, MemConflict advances principled long-term memory governance through retrieval-aware, conflict-aware reliability assessment.
- Abstract(参考訳): 長期記憶システムにより、大きな言語モデル(LLM)に基づく会話エージェントは、マルチセッションインタラクションを通じてユーザ固有の情報を保持、取得、適用することができる。
しかし、既存の評価は、主に結果レベルのパフォーマンスや時間的更新を評価し、競合する代替手段の下での時間的有効性、事実的正当性、文脈的に適用可能なメモリエビデンスをシステムがどのように検索し、ランク付けするかについての限られた洞察を提供する。
このギャップに対処するために,メモリの妥当性をクエリ条件付きフィットネス・フォー・ユース問題として扱う診断フレームワークであるMemConflictを提案する。
MemConflictは、時間的妥当性、事実的正確性、文脈的適用性に関する動的、静的、条件的衝突を形式化する。
構造化されたユーザプロファイルから制御されたロングホライズン履歴をシミュレートし、クロスセッションコンフリクトを導入し、セマンティックに類似したイントラクタを注入して、メモリ候補間の競合を発生させる。
得られたマルチセッション対話ベンチマークは、最終回答のブラックボックス評価と、サポートメモリ検索とランキングのホワイトボックス分析をサポートする。
6つの代表的な長期記憶システムの実験は、競合タイプ間で不均一な強度を示し、答えの正しさは記憶検索やランキングから分岐することが多い。
感度分析により、長い履歴、注意散らし、暗黙のクエリ、より大きな衝突距離が性能を低下させることが明らかになった。
診断では、不足した記憶の欠如と、回復した記憶の非有効利用が示される。
集合的に、MemConflictは、検索対応、競合対応の信頼性評価を通じて、長期記憶管理の原則を推進している。
関連論文リスト
- MINTEval: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems [69.06764269022925]
本研究では,現在の記憶増強剤が現実的,干渉重大,長期的設定において果たす役割について検討する。
MINTEvalは、頻繁に更新される情報を備えた、長く高度に相互接続されたコンテキストを特徴とするベンチマークである。
MINTEvalは128.8kのトークンを平均で1インスタンスあたり1.8Mのトークンに拡張し、15.6kの質問応答ペアを持つ。
論文 参考訳(メタデータ) (2026-05-18T15:43:35Z) - Causal Intervention-Based Memory Selection for Long-Horizon LLM Agents [0.33842793760651557]
制御された介入の下で,候補記憶がモデル応答に与える影響を推定する因果記憶選択手法を提案する。
以上の結果から,CMIは,信頼性の高い長期記憶には関連性のみではなく,因果的有用性に基づくコンテキスト選択が必要であることが示唆された。
論文 参考訳(メタデータ) (2026-05-17T20:21:55Z) - AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents [49.63422082885992]
長軸対話エージェントのための適応型ユーザ中心メモリフレームワークであるAdaMemを提案する。
AdaMemは対話履歴をワーキング、エピソディック、ペルソナ、グラフメモリに整理する。
LoCoMo と PERSONAMEM ベンチマーク上での AdaMem の評価を行った。
論文 参考訳(メタデータ) (2026-03-17T13:22:54Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。
AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文 参考訳(メタデータ) (2026-01-28T08:09:49Z) - MemWeaver: Weaving Hybrid Memories for Traceable Long-Horizon Agentic Reasoning [26.119505362626338]
本稿では,長期エージェント体験を3つの相互接続コンポーネントに集約する統合メモリフレームワークを提案する。
MemWeaverは、構造化された知識を共同で検索し、エビデンスをサポートし、コンパクトで情報密度の高いコンテキストを構築するデュアルチャネル検索戦略を採用している。
論文 参考訳(メタデータ) (2026-01-26T06:39:27Z) - Amory: Building Coherent Narrative-Driven Agent Memory through Agentic Reasoning [14.368376032599437]
Amoryは、オフライン時に構造化されたメモリ表現を積極的に構築するワーキングメモリフレームワークである。
アモリーは会話の断片を叙事詩の物語に整理し、記憶を運動量と統合し、周辺事実を意味記憶に意味づける。
Amoryは従来の最先端よりも大幅に改善され、パフォーマンスは完全なコンテキスト推論に匹敵し、レスポンスタイムを50%削減した。
論文 参考訳(メタデータ) (2026-01-09T19:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。