論文の概要: MEMAUDIT: An Exact Package-Oracle Evaluation Protocol for Budgeted Long-Term LLM Memory Writing
- arxiv url: http://arxiv.org/abs/2605.02199v1
- Date: Mon, 04 May 2026 03:57:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.13033
- Title: MEMAUDIT: An Exact Package-Oracle Evaluation Protocol for Budgeted Long-Term LLM Memory Writing
- Title(参考訳): MEMAUDIT: 長期の長期LLMメモリ書き込みのためのExact Package-Oracle Evaluation Protocol
- Authors: Nishant Bhargava, Rodrigo Sobral Barrento,
- Abstract要約: MEMAUDITは長期メモリ書き込みのための正確なパッケージ評価プロトコルである。
我々は,このプロトコルを,記憶条件下でのconcave-over-modularなセマンティックカバレッジ目標と,経験的制約としてインスタンス化する。
厳密なパッケージ、妥当性の高いストレステスト、人間監査された自然サポートスライス、輸出されたMem0、A-Mem、そしてLetaのストア全体で、MEMAUDITは表現品質、妥当性保存、予算対応の選択効果を分離している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-term LLM agents must compress streams of past interactions into persistent memory before future queries are known. Existing evaluations usually measure final question-answering accuracy, which entangles memory writing with retrieval, prompting, and reader reasoning. We introduce MEMAUDIT, an exact packageoracle evaluation protocol for budgeted long-term memory writing. A MEMAUDIT package fixes an experience stream, candidate memory representations, storage costs, semantic evidence units, future-query requirements, and a budget, turning write-time memory selection into a finite auditable optimization problem with a certified denominator. We instantiate this protocol with a concave-over-modular semantic coverage objective under storage and one-representation-per-experience constraints, and compute exact package optima using branch-and-bound with MILP certification. Across controlled exact packages, validity-heavy stress tests, human-audited natural support slices, and exported Mem0, A-Mem, and Letta stores, MEMAUDIT separates representation quality, validity-state preservation, and budget-aware selection effects that end-to-end QA cannot localize. The resulting artifact provides reusable package generators, certified solvers, natural package exports, external-system scorers, and cached reproducibility metadata for evaluating what memory writers actually preserve under fixed storage budgets.
- Abstract(参考訳): 長期LLMエージェントは、将来のクエリが知られる前に、過去のインタラクションのストリームを永続メモリに圧縮する必要がある。
既存の評価は通常、最終的な問合せ精度を計測し、メモリ書き込みを検索、プロンプト、読み取り推論で絡み合わせる。
本稿では,長期メモリ書き込みのためのパッケージ評価プロトコルであるMEMAUDITを紹介する。
MEMAUDITパッケージは、エクスペリエンスストリーム、候補メモリ表現、ストレージコスト、セマンティックエビデンスユニット、将来のクエリ要求、予算を修正し、書き込み時間メモリの選択を認証された復号子で有限監査可能な最適化問題に変換する。
我々は,このプロトコルを,記憶条件下でのconcave-over-modularなセマンティックカバレッジ目標と,経験的制約の1つの表現でインスタンス化し,MILP認証付きブランチ・アンド・バウンドを用いた正確なパッケージオプティマを計算する。
厳密なパッケージ、妥当性の高いストレステスト、人間監査された自然サポートスライス、輸出されたMem0、A-Mem、Lettaストア全体で、MEMAUDITは、エンドツーエンドのQAがローカライズできない表現品質、妥当性保存、予算対応の選択効果を分離している。
結果として生成されたアーティファクトは、再利用可能なパッケージジェネレータ、認定されたソルバ、自然なパッケージエクスポート、外部システムスコアラ、キャッシュされた再現性メタデータを提供し、メモリライタが固定ストレージ予算の下で実際に保持しているものを評価する。
関連論文リスト
- A Parametric Memory Head for Continual Generative Retrieval [52.66674234249913]
生成情報検索(GenIR)は、検索を単一のニューラルモデルに統合し、クエリから直接ドキュメント識別子(ドシデント)をデコードする。
逐次適応は、新たに追加された文書の検索を改善するが、以前のスライスの性能は著しく低下することを示す。
本稿では,モジュール型パラメトリックメモリヘッドで適応モデルを拡張するメモリのみの安定化ステージである,後適応メモリチューニング(PAMT)を提案する。
論文 参考訳(メタデータ) (2026-04-25T17:38:51Z) - Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents [0.0]
永続型AIシステムは、長いコンテキストの大規模言語モデル(LLM)に完全な会話履歴を渡すことと、構造化された事実を抽出して検索する専用のメモリシステムを維持することの選択肢に直面している。
我々は,Mem0フレームワーク上に構築されたファクトベースのメモリシステムと,3つのメモリ中心ベンチマーク上でのLLMの長文推論を比較した。
論文 参考訳(メタデータ) (2026-03-05T05:01:30Z) - Adaptive Memory Admission Control for LLM Agents [9.04001220868675]
本稿では,メモリ入力を構造化決定問題として扱うフレームワークであるAdaptive Memory Admission Control (A-MAC)を提案する。
A-MACはメモリ値を5つの補完的・解釈可能な因子に分解する。
A-MACは精度のよいリコールトレードオフを実現し、F1を0.583に改善し、最先端のLLMネイティブメモリシステムに比べてレイテンシを31%削減した。
論文 参考訳(メタデータ) (2026-03-04T19:32:02Z) - Learning to Remember: End-to-End Training of Memory Agents for Long-Context Reasoning [18.621823772319154]
本稿では,メモリ操作と質問応答を一つのポリシーで統一するエンドツーエンド強化学習フレームワークを提案する。
UMAは、グローバルコンテキストのためのコンパクトなコアサマリと、明示的なCRUDをサポートする構造化メモリバンクという、二重メモリ表現を維持している。
Ledger-QA、Test-Time Learning、そしてCurcurate Retrievalにまたがる13のデータセットのうち、UMAは動的推論と学習タスクの長いコンテキストとRAGベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-02-13T16:54:23Z) - Fine-Mem: Fine-Grained Feedback Alignment for Long-Horizon Memory Management [63.48041801851891]
Fine-Memは、きめ細かいフィードバックアライメントのために設計された統一されたフレームワークである。
MemalphaとMemoryAgentBenchの実験は、Fin-Memが強いベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-01-13T11:06:17Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments [6.12783571098263]
MEMTRACKは、マルチプラットフォームエージェント環境における長期記憶と状態追跡を評価するために設計されたベンチマークである。
それぞれのベンチマークインスタンスは、ノイズ、競合、相互参照情報を備えた、時系列的にプラットフォームインターリーブされたタイムラインを提供する。
ベンチマークでは、取得、選択、競合解決などのメモリ機能をテストしています。
論文 参考訳(メタデータ) (2025-10-01T18:34:03Z) - Memory in Large Language Models: Mechanisms, Evaluation and Evolution [8.158439933515131]
我々は,4つの分類法(パラメトリック,文脈,外部,手続き/エピソード)とメモリ四倍法(ロケーション,永続性,書き込み/アクセスパス,制御性)を提案する。
DMM Gov: DAPT/TAPT, PEFT, モデル編集(ROME, MEND, MEMIT, SERAC)、RAGをコーディネートして監査可能なループを形成する。
これにより、再現可能で、同等で、統制可能な、研究と展開のための座標系が得られる。
論文 参考訳(メタデータ) (2025-09-23T10:06:58Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - SCM: Enhancing Large Language Model with Self-Controlled Memory Framework [54.33686574304374]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。