Fugu-MT 論文翻訳(概要): WhenLoss: Diagnosing Write and Retrieval Bottlenecks in Long-Context Memory Systems

論文の概要: WhenLoss: Diagnosing Write and Retrieval Bottlenecks in Long-Context Memory Systems

arxiv url: http://arxiv.org/abs/2605.24579v1
Date: Sat, 23 May 2026 13:43:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:18.255642
Title: WhenLoss: Diagnosing Write and Retrieval Bottlenecks in Long-Context Memory Systems
Title（参考訳）: WhenLoss: 長期記憶システムにおける書き込みと検索用ブートネックの診断
Authors: Jiangnan Yu, Kisson Songqi Lin, Jilong Wu,
Abstract要約: 予測圧縮は全てのシステムの中で最も高いスコアを達成している。これらの結果は、このベンチマークと評価設定において、書き込みステージが保持するものを改善することが、パフォーマンス向上の鍵となる道であることを示唆している。
参考スコア（独自算出の注目度）: 2.605344682123109
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Long-context memory systems often fail under fixed budgets, but end-to-end evaluation does not reveal whether evidence was discarded during compression or preserved but never retrieved. We introduce a four-condition diagnostic protocol that evaluates a fixed reader under truncated full context (TFC), oracle evidence (OE), complete stored memory (CSM), and retrieved memory (RM). Under this fixed-budget LongMemEval setup, write-side gaps exceed retrieval-side gaps for most tested baselines, with four of six baselines robustly write-dominant under our default diagnosis margin. Motivated by this diagnosis, we propose Expected Predictive Compression (EPC), which moves the key decision--what information to retain--to write time by using an LLM to anticipate likely future questions and preserve the minimal supporting evidence under the token budget, while leaving retrieval unchanged at question time. Across all 500 LongMemEval questions with three readers (GPT-5.2, Claude Sonnet 4, Gemini 2.5 Pro), EPC achieves the highest CSM scores among all systems (0.49 vs. 0.44 for Summary (LLM), the strongest baseline), reducing Delta_write to 0.04 while leaving Delta_retr comparable to other LLM-based systems. These results suggest that, on this benchmark and evaluation setup, improving what the write stage preserves is a key avenue for performance gains in the tested systems.
Abstract（参考訳）: 長いコンテキストのメモリシステムは、しばしば固定された予算で失敗するが、エンドツーエンドの評価では、圧縮中に証拠が破棄されたか、保存されていないかは明らかにしない。本稿では,TFC(Truncated full context),OE(Oracle evidence),CSM(Completed stored memory),RM(Recovered memory)の4条件診断プロトコルを提案する。この固定予算のLongMemEval設定では、書き込み側ギャップは、ほとんどのテストベースラインで検索側ギャップを超え、デフォルトの診断マージンでは6つのベースラインのうち4つがしっかりと書き込みに支配されている。本報告では, 予測圧縮 (EPC) と呼ばれる予測圧縮(predictive Compression, EPC) が提案され, LLM を用いて今後の課題を予測し, トークン予算の下では最小の支持証拠を保存し, 再検索をそのまま残しながら, 重要な決定事項を書き込み時間に移行する。 500 LongMemEvalの3つの質問(GPT-5.2、Claude Sonnet 4、Gemini 2.5 Pro)の中で、EPCは全てのシステムの中で最高CSMスコア(LLMは0.49対0.44)を達成し、Delta_writeを0.04に減らした。これらの結果は,本ベンチマークと評価設定において,テストシステムにおける性能向上の鍵となる方法として,書き込みステージが保持するものを改善することを示唆している。

関連論文リスト

MemGym: a Long-Horizon Memory Environment for LLM Agents [69.79226770543049]
本稿では,エージェントメモリのベンチマークであるMemGymを紹介する。 MemGymは、メモリパフォーマンスを推論、検索、ツール使用能力から切り離すメモリアイソレーションスコアを報告している。 MEMGYM-CODEQAとMEMGYM-DRの合成パイプラインは、長さ制御可能であり、各ステージでアブレーションを検証可能であり、下流のシナリオと密に整合している。
論文参考訳（メタデータ） (2026-05-20T07:25:33Z)
Is One Score Enough? Rethinking the Evaluation of Sequentially Evolving LLM Memory [50.857546269660276]
本稿では,大規模言語モデル(LLM)メモリを逐次進化させる診断評価フレームワークであるSeqMem-Evalを紹介する。最終的なパフォーマンスのみに焦点を当てるのではなく、SeqMem-Evalは、シーケンシャル推論において、メモリ状態がどのように進化し、一般化し、エクスペリエンスを集約し、有用な情報を保持するかを評価する。
論文参考訳（メタデータ） (2026-05-14T20:15:22Z)
LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues [80.29362825271768]
LongMemEval-V2は、メモリシステムが、カスタマイズされた環境で知識のある同僚になるために必要な経験を得るのに役立つかどうかを評価するためのベンチマークである。 LME-V2には、Webエージェントの5つのコアメモリ能力をカバーする451の質問が含まれている。 AgentRunbook-Rは生の状態観察,イベント,戦略ノートのための知識プールを備えた,効率的なRAGベースのメモリであり,AgentRunbook-Cはトラジェクトリをファイルとして格納し,コードエージェントを起動して,拡張サンドボックスに証拠を収集する。
論文参考訳（メタデータ） (2026-05-12T17:59:34Z)
MEME: Multi-entity & Evolving Memory Evaluation [76.57263966646404]
MEMEは、マルチエンタリティと進化する軸によって定義される全空間にまたがる6つのタスクを定義している。 3つの記憶パラダイムにまたがる6つの記憶システムの評価。デフォルト設定の下では、すべてのシステムが依存性の推論で崩壊しているのが分かります。
論文参考訳（メタデータ） (2026-05-12T17:55:10Z)
A Parametric Memory Head for Continual Generative Retrieval [52.66674234249913]
生成情報検索(GenIR)は、検索を単一のニューラルモデルに統合し、クエリから直接ドキュメント識別子(ドシデント)をデコードする。逐次適応は、新たに追加された文書の検索を改善するが、以前のスライスの性能は著しく低下することを示す。本稿では,モジュール型パラメトリックメモリヘッドで適応モデルを拡張するメモリのみの安定化ステージである,後適応メモリチューニング(PAMT)を提案する。
論文参考訳（メタデータ） (2026-04-25T17:38:51Z)
Spatial Metaphors for LLM Memory: A Critical Analysis of the MemPalace Architecture [0.0]
MemPalaceはオープンソースのAIメモリシステムである。同社は、LongMemEvalベンチマークで最先端の検索性能を主張している。 We found that MemPalace's headline search performance is attributable to its verbatim storage philosophy。
論文参考訳（メタデータ） (2026-04-23T04:59:16Z)
D-Mem: A Dual-Process Memory System for LLM Agents [3.5426740232689604]
本稿では,デュアルプロセスメモリシステムD-Memを紹介する。ルーチンクエリに対する軽量なベクトル検索を維持しながら、フルリベレーションモジュールを高忠実度フォールバックとして確立している。 GPT-4o-miniとQwen3-235B-Instructを用いたLoCoMoとRealTalkのベンチマーク実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2026-03-19T08:55:22Z)
MemX: A Local-First Long-Term Memory System for AI Assistants [0.0]
我々は、安定性指向の検索設計を備えたAIのためのローカルファーストの長期記憶システムであるMemXを提案する。 MemXは、libとOpenAI互換の組み込みAPI上にRustで実装されており、会話エージェントに対して永続的で検索可能な、説明可能なメモリを提供する。
論文参考訳（メタデータ） (2026-03-17T06:39:54Z)
AlpsBench: An LLM Personalization Benchmark for Real-Dialogue Memorization and Preference Alignment [54.72137309071243]
AlpsBenchはWildChatからキュレートされた2500の長期的相互作用配列から構成され、人間によって検証された構造化記憶と組み合わせられる。我々は、パーソナライズされた情報抽出、更新、検索、利用の4つの重要なタスクを定義し、メモリ管理のライフサイクル全体を評価するためのプロトコルを確立する。 i)モデルが潜在ユーザ特性を確実に抽出するのに苦労していること、(ii)メモリ更新が最強モデルでもパフォーマンス天井に直面すること、(iii)大きなイントラクタプールの存在下での検索精度が急激に低下すること、(iv)明示的なメモリ機構がリコールを改善する一方で、リコールは行わないこと、などである。
論文参考訳（メタデータ） (2026-03-09T11:06:19Z)
Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents [0.0]
永続型AIシステムは、長いコンテキストの大規模言語モデル(LLM)に完全な会話履歴を渡すことと、構造化された事実を抽出して検索する専用のメモリシステムを維持することの選択肢に直面している。我々は,Mem0フレームワーク上に構築されたファクトベースのメモリシステムと,3つのメモリ中心ベンチマーク上でのLLMの長文推論を比較した。
論文参考訳（メタデータ） (2026-03-05T05:01:30Z)
Memory-Augmented Log Analysis with Phi-4-mini: Enhancing Threat Detection in Structured Security Logs [0.0]
構造化ログ解析のための二重メモリ検索拡張生成フレームワークである textbfDM-RAG を提案する。これは最近の要約のための短期記憶バッファと、歴史的パターンのための長期FAISSインデックスメモリを統合している。 UNSW-NB15データセットでは、DM-RAG 53.64%の精度と98.70%のリコールがあり、リコール時のRAGベースラインと微調整された。
論文参考訳（メタデータ） (2025-10-01T05:23:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。