論文の概要: Hippocampus: An Efficient and Scalable Memory Module for Agentic AI
- arxiv url: http://arxiv.org/abs/2602.13594v1
- Date: Sat, 14 Feb 2026 04:25:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.226274
- Title: Hippocampus: An Efficient and Scalable Memory Module for Agentic AI
- Title(参考訳): Hippocampus: エージェントAIのための効率的でスケーラブルなメモリモジュール
- Authors: Yi Li, Lianjie Cao, Faraz Ahmed, Puneet Sharma, Bingzhe Li,
- Abstract要約: Hippocampusは、セマンティック検索にコンパクトなバイナリシグネチャを使用するエージェント型メモリ管理システムである。
その中核はDWM(Dynamic Wavelet Matrix)であり、超高速検索をサポートするために両方のストリームを圧縮し、共同インデックスする。
評価の結果,Hippocampusはエンドツーエンドの検索遅延を最大31$times$に削減できることがわかった。
- 参考スコア(独自算出の注目度): 4.508092142808317
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Agentic AI require persistent memory to store user-specific histories beyond the limited context window of LLMs. Existing memory systems use dense vector databases or knowledge-graph traversal (or hybrid), incurring high retrieval latency and poor storage scalability. We introduce Hippocampus, an agentic memory management system that uses compact binary signatures for semantic search and lossless token-ID streams for exact content reconstruction. Its core is a Dynamic Wavelet Matrix (DWM) that compresses and co-indexes both streams to support ultra-fast search in the compressed domain, thus avoiding costly dense-vector or graph computations. This design scales linearly with memory size, making it suitable for long-horizon agentic deployments. Empirically, our evaluation shows that Hippocampus reduces end-to-end retrieval latency by up to 31$\times$ and cuts per-query token footprint by up to 14$\times$, while maintaining accuracy on both LoCoMo and LongMemEval benchmarks.
- Abstract(参考訳): エージェントAIは、LLMの限られたコンテキストウィンドウを超えて、ユーザ固有の履歴を保存するために永続メモリを必要とする。
既存のメモリシステムは、密度の高いベクトルデータベースや知識グラフトラバーサル(またはハイブリッド)を使用し、高い検索遅延とストレージスケーラビリティの低下を引き起こす。
セマンティック検索にコンパクトなバイナリシグネチャと、正確なコンテンツ再構成にロスレストークンIDストリームを使用するエージェントメモリ管理システムであるHippocampusを紹介する。
その中核はDWM(Dynamic Wavelet Matrix)であり、圧縮された領域における超高速な探索をサポートするために両方のストリームを圧縮・インデックスする。
この設計はメモリサイズと線形にスケールし、長期のエージェント配置に適している。
実証的な評価では、Hippocampusはエンドツーエンドの検索遅延を最大31$\times$に削減し、クエリ単位のトークンフットプリントを最大14$\times$に削減し、LoCoMoとLongMemEvalベンチマークの精度を維持している。
関連論文リスト
- AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。
AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文 参考訳(メタデータ) (2026-01-28T08:09:49Z) - S$^3$-Attention:Attention-Aligned Endogenous Retrieval for Memory-Bounded Long-Context Inference [11.779449360037518]
S3-Attentionは,長期コンテキスト処理を注目に順応した内因性検索として扱うメモリファースト推論時フレームワークである。
S3-Attentionは、軽量なスパースオートエンコーダを使用して、トランジェントキーとクエリプロジェクションをトップkスパース機能識別子にデコードする。
単一のストリーミングスキャン中にトークンの位置やスパンにCPUベースの逆インデックスマッピング機能を構築する。
論文 参考訳(メタデータ) (2026-01-25T05:25:22Z) - Aeon: High-Performance Neuro-Symbolic Memory Management for Long-Horizon LLM Agents [0.0]
大規模言語モデル(LLM)は、自己注意の2次計算コストと「中道の失われた」現象によって制約される。
我々は,静的ストアではなく,管理OSリソースとしてメモリを再定義するニューロシンボリック認知オペレーティングシステムであるAeonを提案する。
論文 参考訳(メタデータ) (2026-01-14T15:23:22Z) - MemRec: Collaborative Memory-Augmented Agentic Recommender System [57.548438733740504]
我々はメモリ管理から推論をアーキテクチャ的に分離するフレームワークであるMemRecを提案する。
MemRecは動的コラボレーティブメモリグラフを管理する専用のLM_Memを導入した。
4つのベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-13T18:51:16Z) - SwiftMem: Fast Agentic Memory via Query-aware Indexing [45.27116353623848]
我々は,時間的・意味的次元の特殊インデックス化によるサブ線形検索を実現する,クエリ対応のエージェントメモリシステムであるSwiftMemを提案する。
DAG-Tagインデックスは、階層的なタグ構造を通して、クエリを関連するトピックにマッピングする。
LoCoMoとLongMemEvalベンチマークの実験では、SwiftMemは最先端のベースラインに比べて47$times$高速検索を実現している。
論文 参考訳(メタデータ) (2026-01-13T02:51:04Z) - SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - DynaKV: Enabling Accurate and Efficient Long-Sequence LLM Decoding on Smartphones [10.813495376006427]
大規模言語モデル(LLM)は、効率的で効果的な長シーケンスデコードをサポートすることがますます期待されている。
DRAM容量が限られているため、スマートフォン上でのLLM復号化はキー値キャッシュ(KVCache)によって制限される。
我々はDynaKVを提案する。DynaKVはスマートフォン上での長時間デコードにおける精度と効率を両立させる最初の適応KVキャッシュ管理手法である。
論文 参考訳(メタデータ) (2025-10-20T08:56:02Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。