論文の概要: When Stored Evidence Stops Being Usable: Scale-Conditioned Evaluation of Agent Memory
- arxiv url: http://arxiv.org/abs/2605.07313v1
- Date: Fri, 08 May 2026 06:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.851698
- Title: When Stored Evidence Stops Being Usable: Scale-Conditioned Evaluation of Agent Memory
- Title(参考訳): ストアドエビデンスの使用が不可能になった場合--エージェントメモリのスケールコンディションによる評価
- Authors: Jiaqi Shao, Yiyi Lu, Yunzhen Zhang, Bing Luo,
- Abstract要約: 本稿では,エビデンス保存型成長下でのエージェントメモリのスケールコンディション評価プロトコルを提案する。
各クエリに対して、タスクエビデンスが固定され、無関係なセッションが追加される。
このプロトコルはエージェントメモリトラジェクトリをログし、4つの診断結果を報告する。
- 参考スコア(独自算出の注目度): 4.425240080125479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memory-agent evaluations report fixed-snapshot accuracy or retrieval quality, but these scores do not show whether evidence remains usable as irrelevant sessions (sessions not annotated as task-relevant evidence for the query) accumulate. We present a scale-conditioned evaluation protocol for agent memory under evidence-preserving growth: for each query, task evidence is held fixed while irrelevant sessions are added. The protocol logs agent--memory trajectories and reports four diagnostics: budget-compliant reliability, tail memory-call burden, failure-regime decomposition, and the usable-scale boundary where reliability falls below the target. Applied to LongMemEval and LoCoMo across flat, planar, and hierarchical memory interfaces, the protocol shows reliability loss is not a single phenomenon. On LongMemEval, HippoRAG stays within the two-call budget but loses 16--20 percentage points in budget-compliant reliability as irrelevant sessions are added; LiCoMemory's observed failures depend strongly on the agent, with Qwen3-8B exceeding the budget while Qwen3-32B and Qwen3-235B remain reliable in the tested range. The result supports a framework for making scalable-memory claims conditional on agent, interface, scale range, and interaction budget.
- Abstract(参考訳): メモリエージェント評価では、固定ショットの精度や検索品質が報告されているが、これらのスコアは、無関係なセッション(クエリのタスク関連エビデンスとして注釈付けされていないセッション)として有効な証拠が蓄積されていることを示すものではない。
本稿では,エビデンス保存型成長下でのエージェントメモリのスケールコンディション評価プロトコルを提案する。
プロトコルはエージェント-メモリトラジェクトリをログし、予算準拠の信頼性、テールメモリ-コールの負荷、障害-レジームの分解、信頼性がターゲットより低い使用可能なスケール境界の4つの診断を報告する。
LongMemEvalとLoCoMoをフラット、プラナー、階層的なメモリインターフェースに適用すると、信頼性の低下は単一の現象ではないことが分かる。
LongMemEvalでは、HippoRAGは2コールの予算内に留まるが、無関係なセッションが加えられるにつれて、予算準拠の信頼性が16~20パーセント低下する。
その結果は,エージェント,インターフェース,スケール範囲,インタラクション予算を条件に,スケーラブルなメモリクレームを実現するためのフレームワークをサポートする。
関連論文リスト
- Belief Memory: Agent Memory Under Partial Observability [56.41506249481312]
本稿では,メモリパラダイムを観測毎に1つの結論にシフトし,その確率で複数の結論を導出するBeliefMemを提案する。
BeliefMemは決定論的パラダイムが破棄されるという不確実性を保ち、エージェントが高い信頼を持って行動することを可能にする。
LoCoMoとALFWorldベンチマークの実証的な評価は、限られたデータであっても、BeliefMemが最高の平均パフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2026-05-07T02:03:13Z) - MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents [78.95081012334116]
永続メモリを持つ大規模言語モデル(LLM)は、相互作用の継続性とパーソナライゼーションを高めるが、新たな安全性リスクをもたらす。
汚染または偏りのある記憶蓄積は、異常な作用を引き起こす可能性がある。
MemeEvoBenchは、LLMエージェントのメモリ安全性を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-04-17T07:29:52Z) - All-Mem: Agentic Lifelong Memory via Dynamic Topology Evolution [20.68235182577703]
All-Memは明示的で非破壊的な統合を通じて構造化されたメモリバンクを維持している。
LLM診断器は定期的にオフラインで、SPLIT、MERGE、UPDATEの3つの演算子で実行される信頼性スコアトポロジ編集を提案する。
クエリ時には、タイプドリンクはホップバウンドで、アクティブアンカーから必要に応じてアーカイブされたエビデンスへの予算付き拡張を可能にする。
論文 参考訳(メタデータ) (2026-03-20T03:14:40Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。
我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。
幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文 参考訳(メタデータ) (2026-02-04T18:39:58Z) - Fine-Mem: Fine-Grained Feedback Alignment for Long-Horizon Memory Management [63.48041801851891]
Fine-Memは、きめ細かいフィードバックアライメントのために設計された統一されたフレームワークである。
MemalphaとMemoryAgentBenchの実験は、Fin-Memが強いベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-01-13T11:06:17Z) - PBFT-Backed Semantic Voting for Multi-Agent Memory Pruning [0.0]
本稿では,マルチエージェントシステム(MAS)における同期メモリプルーニングを可能にするCo-Forgetting Protocolを提案する。
1) エージェントが軽量な DistilBERT モデルを用いて、その内容と現在の運用状況に基づいて、メモリアイテムの関連性を評価すること、2) 時間的地平線をまたいで、その年齢とアクセス頻度に基づいて、メモリに重要性を割り当てるマルチスケールの時間的減衰関数、(3) 実践的ビザンチンフォールトトレランス(PBFT)に基づくコンセンサス機構により、メモリアイテムの保持または破棄の決定が、適格でフォールトトレラントなエージェントによって合意されることを保証すること、である。
論文 参考訳(メタデータ) (2025-06-19T08:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。