論文の概要: When Should Memory Stay Silent: Measuring Memory-Use Boundaries in Memory-Augmented Conversational Agents
- arxiv url: http://arxiv.org/abs/2606.06055v1
- Date: Thu, 04 Jun 2026 11:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.76811
- Title: When Should Memory Stay Silent: Measuring Memory-Use Boundaries in Memory-Augmented Conversational Agents
- Title(参考訳): メモリ拡張会話エージェントにおけるメモリ使用境界の測定
- Authors: Lingxiang Xu, Jiaoyun Yang, Min Hu, Hongtu Chen, Ning An,
- Abstract要約: 長期記憶により、言語モデルエージェントはパーソナライズされたインタラクションをサポートすることができる。
利用可能な記憶がいつ応答に統合されるかは、まだ不明である。
検索システムは露光を減らすが、感度の高いメモリがジェネレータに到達すると、統合を排除しない。
- 参考スコア(独自算出の注目度): 13.354128891280316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term memory enables language model agents to support personalized interactions, but it remains unclear when available memories warrant integration into responses. Existing memory evaluations emphasize retrieval accuracy and downstream task utility, while overlooking whether retrieved sensitive memory content is warranted in the current turn. We introduce RBI-Eval, a controlled measurement study built around a probe set that compares model behavior with and without access to sensitive memory under identical benign prompts. We evaluate four base LLMs against a matched no-memory reference across four memory-access settings: full-context exposure and three retrieval systems. Our results reveal substantial behavioral divergence. With memory available, the separation score for sensitive-memory integration decreases by 8.9\%--26.6\% relative to the matched no-memory reference for GPT-5.4-mini, but by 51.1\%--82.9\% for Claude-Sonnet-4.6, DeepSeek-V4-Flash, and Qwen3.5-9B. Control experiments on DeepSeek and GPT-5.4-mini show this effect is specific to sensitive content, rather than general personalization. Retrieval systems reduce exposure but do not eliminate integration once sensitive memory reaches the generator. These findings suggest safe personalization requires memory-aware decisions at both retrieval and generation time.
- Abstract(参考訳): 長期記憶により、言語モデルエージェントはパーソナライズされたインタラクションをサポートすることができるが、利用可能なメモリが応答に統合されるかどうかは不明である。
既存のメモリ評価では、検索精度とダウンストリームタスクユーティリティを強調し、検索した機密メモリ内容が現在のターンで保証されているかどうかを見落としている。
RBI-Evalは、モデル挙動と同一の良性プロンプト下での高感度メモリへのアクセスの有無を比較した、プローブセットを中心に構築された制御された測定結果である。
我々は,4つのメモリアクセス設定 – フルコンテキスト露光と3つの検索システム – において,一致しないメモリ参照に対する4つの基本LCMの評価を行った。
以上の結果から, 行動の相違が明らかとなった。
メモリが利用可能になると、機密メモリ統合のための分離スコアは、GPT-5.4-miniの一致したメモリ参照と比較して8.9\%-26.6\%減少するが、Claude-Sonnet-4.6、DeepSeek-V4-Flash、Qwen3.5-9Bでは51.1\%-82.9\%減少する。
DeepSeekとGPT-5.4-miniの制御実験は、この効果が一般的なパーソナライゼーションではなく、センシティブな内容に特異的であることを示している。
検索システムは露光を減らすが、感度の高いメモリがジェネレータに到達すると、統合を排除しない。
これらの結果は、安全なパーソナライズには、検索時間と生成時間の両方において、メモリ認識による決定が必要であることを示唆している。
関連論文リスト
- Beyond Similarity: Trustworthy Memory Search for Personal AI Agents [25.265839311088516]
個人AIエージェントにおける信頼境界としてのメモリ探索について検討する。
MemGateは、信頼性の高いメモリ検索のための軽量でデプロイ可能なメモリプラグインである。
論文 参考訳(メタデータ) (2026-06-04T11:54:29Z) - MemCog: From Memory-as-Tool to Memory-as-Cognition in Conversational Agents [16.587587215932526]
本稿では,メモリアクセスを推論プロセスの不可欠な部分とするメモリ・アズ・認知システムを提案する。
MemCogはユーザ知識をNavigable Memory Storeとしてアソシエーションリンクグラフで整理する。
また,プロアクティブメモリトリガ評価のための最初のベンチマークであるProactiveMemBenchを構築した。
論文 参考訳(メタデータ) (2026-05-27T06:48:33Z) - MemGuard: Preventing Memory Contamination in Long-Term Memory-Augmented Large Language Models [56.31411457917676]
本稿では,メモリ構築と検索において,機能的メモリ境界を保存するタイプアウェアメモリフレームワークであるMemGuardを紹介する。
幻覚と長期会話のベンチマーク全体で、MemGuardはメモリの信頼性を最大28.27%向上し、メモリトークンは以前の方法より5.8倍少ない。
論文 参考訳(メタデータ) (2026-05-27T06:04:19Z) - RecMem: Recurrence-based Memory Consolidation for Efficient and Effective Long-Running LLM Agents [16.625864201773343]
RecMemは、受信するインタラクションをサブ意識のメモリ層に格納し、軽量な埋め込みモデルを使用してエンコードする。
実験により、RecMemは3つのSOTAメモリシステムのメモリ構築トークンコストを最大87%削減し、精度を上回ります。
論文 参考訳(メタデータ) (2026-05-15T15:17:36Z) - Learning When to Remember: Risk-Sensitive Contextual Bandits for Abstention-Aware Memory Retrieval in LLM-Based Coding Agents [0.0]
コーディングエージェントは、以前の経験、トレースの修復、リポジトリローカルな運用知識を再利用するために、ますます外部メモリに依存している。
本稿では、純トップk検索問題ではなく、選択的かつリスクに敏感な制御問題として、イシューメモリの使用を再検討する。
リスクに敏感なコンテキスト帯域メモリコントローラであるRSCB-MCを導入し,メモリ使用の有無を判断し,トップレゾリューションを注入し,複数の候補を要約し,高精度または高速リコール検索,停止,あるいはフィードバックを求める。
論文 参考訳(メタデータ) (2026-04-30T00:32:53Z) - From Recall to Forgetting: Benchmarking Long-Term Memory for Personalized Agents [38.52713500119118]
Memoraは、数週間から数ヶ月のユーザ会話にまたがる長期メモリベンチマークです。
ベンチマークでは、記憶、推論、レコメンデーションの3つのメモリグラウンドタスクを評価している。
FAMA(Forgetting-Aware Memory Accuracy)は、古いメモリや無効メモリへの依存を罰するメトリクスである。
論文 参考訳(メタデータ) (2026-04-21T21:31:01Z) - MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents [78.95081012334116]
永続メモリを持つ大規模言語モデル(LLM)は、相互作用の継続性とパーソナライゼーションを高めるが、新たな安全性リスクをもたらす。
汚染または偏りのある記憶蓄積は、異常な作用を引き起こす可能性がある。
MemeEvoBenchは、LLMエージェントのメモリ安全性を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-04-17T07:29:52Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval [59.295767860331004]
RF-Memは、親しみやすい不確実性誘導デュアルパスメモリレトリバーである。
それは、人間のようなデュアルプロセス認識をレトリバーに埋め込む。
一定の予算とレイテンシの制約の下で、ワンショット検索とフルコンテキスト推論を一貫して上回る。
論文 参考訳(メタデータ) (2026-03-10T06:31:44Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。