論文の概要: PersistBench: When Should Long-Term Memories Be Forgotten by LLMs?
- arxiv url: http://arxiv.org/abs/2602.01146v1
- Date: Sun, 01 Feb 2026 10:44:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.623794
- Title: PersistBench: When Should Long-Term Memories Be Forgotten by LLMs?
- Title(参考訳): PersistBench: 長期記憶はいつLLMによって忘れられるべきか?
- Authors: Sidharth Pulipaka, Oliver Chen, Manas Sharma, Taaha S Bajwa, Vyas Raina, Ivaxi Sheth,
- Abstract要約: PersistBenchを導入し、長期記憶に特有な安全性リスクの度合いを計測する。
我々は,クロスドメインリークと長期記憶障害の2つのリスクを同定した。
我々のベンチマークは、フロンティアの会話システムにおいて、より堅牢で安全な長期メモリ使用量の開発を促進する。
- 参考スコア(独自算出の注目度): 4.657424818207681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational assistants are increasingly integrating long-term memory with large language models (LLMs). This persistence of memories, e.g., the user is vegetarian, can enhance personalization in future conversations. However, the same persistence can also introduce safety risks that have been largely overlooked. Hence, we introduce PersistBench to measure the extent of these safety risks. We identify two long-term memory-specific risks: cross-domain leakage, where LLMs inappropriately inject context from the long-term memories; and memory-induced sycophancy, where stored long-term memories insidiously reinforce user biases. We evaluate 18 frontier and open-source LLMs on our benchmark. Our results reveal a surprisingly high failure rate across these LLMs - a median failure rate of 53% on cross-domain samples and 97% on sycophancy samples. To address this, our benchmark encourages the development of more robust and safer long-term memory usage in frontier conversational systems.
- Abstract(参考訳): 会話アシスタントは、長期記憶と大きな言語モデル(LLM)の統合がますます進んでいる。
この記憶の持続性、例えば、ユーザはベジタリアンであり、将来の会話におけるパーソナライズを高めることができる。
しかし、同じ永続性は、見落とされた安全リスクももたらします。
したがって、これらの安全リスクの程度を測定するためにPersistBenchを導入する。
LLMが長期記憶からコンテキストを不適切に注入するクロスドメインリークと、保存された長期記憶がユーザのバイアスを不適切に補強する記憶誘発性という2つの長期記憶固有のリスクを同定する。
我々はベンチマークで18のフロンティアとオープンソースLLMを評価した。
以上の結果から,これらのLSMに対して驚くほど高い障害率を示し,クロスドメインサンプルでは53%,サイコファンシーサンプルでは97%の障害率を示した。
これを解決するため,我々のベンチマークでは,フロンティア対話システムにおけるより堅牢で安全な長期メモリ使用法の開発を奨励している。
関連論文リスト
- EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.84216832544323]
EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。
このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。
広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
論文 参考訳(メタデータ) (2026-01-07T03:14:42Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - Mnemosyne: An Unsupervised, Human-Inspired Long-Term Memory Architecture for Edge-Based LLMs [1.2582867366903179]
我々は、エッジベース大規模言語モデル(LLM)のための、教師なし、人間にインスパイアされた長期記憶アーキテクチャであるMnemosyneを紹介する。
提案手法では, グラフ構造記憶, モジュール状物質および冗長性フィルタ, メモリコミットとプルーニング機構, 時間減衰とリフレッシュ処理による確率的リコールを用いた。
Mnemosyneは、反復的で意味的に類似しているが、時間的に異なる会話は、ナイーブ検索によって制限される縦型医療アシスタントでの使用を目的として設計されている。
論文 参考訳(メタデータ) (2025-10-07T03:32:53Z) - LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory [68.97819665784442]
チャットアシスタントの5つのコアメモリ能力を評価するためのベンチマークであるLongMemEvalを紹介する。
LongMemEvalは、既存の長期記憶システムにとって重要な課題である。
本稿では,長期記憶設計をインデックス化,検索,読解の3段階に分割する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:44Z) - Towards Lifelong Dialogue Agents via Timeline-based Memory Management [26.95907827895548]
本稿では,生涯対話エージェントのフレームワークであるTheANINEを紹介する。
TheANINEはメモリ除去を破棄し、その時間的および原因=効果の関係に基づいてそれらをリンクすることで大規模な記憶を管理する。
TheANINEとともに、反ファクト駆動評価方式であるTeaFarmを紹介する。
論文 参考訳(メタデータ) (2024-06-16T16:17:46Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models [30.48902594738911]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。