論文の概要: MemFail: Stress-Testing Failure Modes of LLM Memory Systems
- arxiv url: http://arxiv.org/abs/2605.26667v1
- Date: Tue, 26 May 2026 08:03:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.741643
- Title: MemFail: Stress-Testing Failure Modes of LLM Memory Systems
- Title(参考訳): MemFail: LLMメモリシステムのストレステスト障害モード
- Authors: Ishir Garg, Neel Kolhe, Dawn Song, Xuandong Zhao,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、長期にわたる相互作用において一貫性を保つために、外部メモリシステムに依存している。
既存のベンチマークでは、集計された質問回答の精度を報告し、メモリシステムをブラックボックスとして扱う。
本稿では,現代のLCMメモリシステムの障害モードを分離する診断ベンチマークであるMemFailを紹介する。
- 参考スコア(独自算出の注目度): 69.80981631587501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents increasingly rely on external memory systems to remain consistent across long-horizon interactions, but little empirical work has been done to understand the specific failure modes and design choices that these systems present. Existing benchmarks report aggregate question-answering accuracy and treat memory systems as black boxes, making it impossible to attribute an incorrect answer to a particular failure mode of the system. We introduce MemFail, a diagnostic benchmark that isolates the failure modes of modern LLM memory systems. We begin by formalizing memory systems as the composition of three canonical operations -- summarization, storage, and retrieval -- and identify the potential failure modes induced by each. Based on these hypothesized failure modes, we construct five datasets spanning four tasks, each adversarially designed to test a specific operation of a memory system. Using these datasets, we evaluate four state-of-the-art memory systems on MemFail and demonstrate how MemFail can be used to empirically understand the tradeoffs induced by differences in memory system architectures.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、長期にわたる相互作用に一貫性を保つために、外部メモリシステムに依存していることが多いが、これらのシステムが持つ特定の障害モードと設計選択を理解するための実証的な作業はほとんど行われていない。
既存のベンチマークでは、集計された問合せ精度を報告し、メモリシステムをブラックボックスとして扱うため、システムの特定の障害モードに対する誤った回答を判断することは不可能である。
本稿では,現代のLCMメモリシステムの障害モードを分離する診断ベンチマークであるMemFailを紹介する。
まず、メモリシステムを3つの標準演算(要約、記憶、検索)の合成として形式化し、それぞれが引き起こす潜在的な障害モードを特定します。
これらの仮定された障害モードに基づいて、4つのタスクにまたがる5つのデータセットを構築し、それぞれがメモリシステムの特定の操作をテストするように設計されている。
これらのデータセットを用いて、MemFail上の4つの最先端メモリシステムを評価し、メモリシステムアーキテクチャの違いによって引き起こされるトレードオフを実証的に理解するために、MemFailがどのように使用できるかを実証する。
関連論文リスト
- Is One Score Enough? Rethinking the Evaluation of Sequentially Evolving LLM Memory [50.857546269660276]
本稿では,大規模言語モデル(LLM)メモリを逐次進化させる診断評価フレームワークであるSeqMem-Evalを紹介する。
最終的なパフォーマンスのみに焦点を当てるのではなく、SeqMem-Evalは、シーケンシャル推論において、メモリ状態がどのように進化し、一般化し、エクスペリエンスを集約し、有用な情報を保持するかを評価する。
論文 参考訳(メタデータ) (2026-05-14T20:15:22Z) - MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents [78.95081012334116]
永続メモリを持つ大規模言語モデル(LLM)は、相互作用の継続性とパーソナライゼーションを高めるが、新たな安全性リスクをもたらす。
汚染または偏りのある記憶蓄積は、異常な作用を引き起こす可能性がある。
MemeEvoBenchは、LLMエージェントのメモリ安全性を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-04-17T07:29:52Z) - Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions [22.190297901876278]
メモリエージェントに不可欠な4つのコア能力、すなわち、正確な検索、テスト時間学習、長距離理解、選択的忘れの4つを特定した。
既存のベンチマークは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。
メモリエージェント用に特別に設計された新しいベンチマークであるMemoryAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:59:54Z) - MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - A Comprehensive Quantification of Inconsistencies in Memory Dumps [13.796554685139855]
我々は、メモリ取得プロセス中にOSカーネルが実行する書き込み操作を全て追跡するシステムを開発した。
我々は、異なる取得モード、ファイルシステム、ハードウェアターゲットがダンプ中のカーネル書き込みの頻度にどのように影響するかを定量化する。
論文 参考訳(メタデータ) (2025-03-19T10:02:54Z) - On the Structural Memory of LLM Agents [20.529239764968654]
メモリは、大規模言語モデル(LLM)ベースのエージェントが複雑で長期的な相互作用を行えるようにするための重要な役割を担っている。
本稿では,メモリ構造とメモリ検索手法がLCMエージェントの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-12-17T04:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。