論文の概要: HTM-EAR: Importance-Preserving Tiered Memory with Hybrid Routing under Saturation
- arxiv url: http://arxiv.org/abs/2603.10032v1
- Date: Fri, 27 Feb 2026 15:35:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.587944
- Title: HTM-EAR: Importance-Preserving Tiered Memory with Hybrid Routing under Saturation
- Title(参考訳): HTM-EAR:飽和下でのハイブリッドルーティングによるティアードメモリの重要性
- Authors: Shubham Kumar Singh,
- Abstract要約: HTM-EARは階層型結合型メモリ基板で、HNSWベースのワーキングメモリとアーカイブストレージを統合している。
L1がキャパシティに達すると、重要度と使用率の重み付けスコアを使用してアイテムを除去する。
完全システムは、クロスエンコーダを再ランク付けせずに、ルーティングゲートなしで、LRUエヴィジョンと、非バウンドメモリを持つオラクルとを比較した。
- 参考スコア(独自算出の注目度): 0.42303492200814446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memory constraints in long-running agents require structured management of accumulated facts while preserving essential information under bounded context limits. We introduce HTM-EAR, a hierarchical tiered memory substrate that integrates HNSW-based working memory (L1) with archival storage (L2), combining importance-aware eviction and hybrid routing. When L1 reaches capacity, items are evicted using a weighted score of importance and usage. Queries are first resolved in L1; if similarity or entity coverage is insufficient, retrieval falls back to L2, and candidates are re-ranked using a cross-encoder. We evaluate the system under sustained saturation (15,000 facts; L1 capacity 500; L2 capacity 5000) using synthetic streams across five random seeds and real BGL system logs. Ablation studies compare the full system against variants without cross-encoder re-ranking, without routing gates, with LRU eviction, and an oracle with unbounded memory. Under saturation, the full model preserves active-query precision (MRR = 1.000) while enabling controlled forgetting of stale history, approaching oracle active performance (0.997 +/- 0.003). In contrast, LRU minimizes latency (21.1 ms) but permanently evicts 2416 essential facts. On BGL logs, the full system achieves MRR 0.336, close to the oracle (0.370), while LRU drops to 0.069. Code is publicly available at: https://github.com/shubham-61291/HTM-EAR
- Abstract(参考訳): 長期にわたるエージェントのメモリ制約は、コンテキスト境界の下で重要な情報を保存する一方で、蓄積された事実の構造化管理を必要とする。
本稿では,HNSWベースのワーキングメモリ(L1)とアーカイブストレージ(L2)を統合した階層型階層型階層型メモリ基板であるHTM-EARを紹介する。
L1がキャパシティに達すると、重要度と使用率の重み付けスコアを使用してアイテムを除去する。
類似性やエンティティのカバレッジが不十分な場合、検索はL2にフォールバックし、候補はクロスエンコーダを使って再ランク付けされる。
我々は,5つのランダムシードと実BGLシステムログの合成ストリームを用いて,持続飽和度(15,000事実,L1容量500,L2容量5000)のシステム評価を行った。
アブレーション研究では、クロスエンコーダを再ランク付けせずに、ルーティングゲートなしで、LRUエヴィジョンで、メモリが無制限なオラクルに対して完全なシステムを比較した。
飽和下では、フルモデルはアクティブクエリ精度(MRR = 1.000)を維持し、古い履歴の制御された忘れを可能とし、オラクルアクティブパフォーマンス(0.997 +/-0.003)に近づく。
対照的に、LRUはレイテンシ(21.1ms)を最小化するが、2416の本質的な事実を永久に排除する。
BGLログでは、LRUは0.069に低下する一方、完全なシステムは、オラクル(0.370)に近いMRR 0.336を達成する。
コードは、https://github.com/shubham-61291/HTM-EARで公開されている。
関連論文リスト
- Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-12T16:00:22Z) - The Missing Memory Hierarchy: Demand Paging for LLM Context Windows [0.0]
我々は、コンテキストウィンドウのための需要パージングシステムPichayを紹介する。
681ターン以上のライブデプロイメントでは、コンテキスト消費を最大93%削減する(5,038KBから339KB)。
極端に持続的な圧力の下では、システムは引き続き運用されるが、期待されるスラッシングの病理を示し、繰り返し削除されたコンテンツに障害が生じる。
論文 参考訳(メタデータ) (2026-03-09T23:38:32Z) - AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems [0.0]
本稿では,エージェントメモリを管理システムリソースとして扱うメモリ管理フレームワークであるAMV-Lを提案する。
AMV-Lはスループットを3.1倍改善し、レイテンシを4.2倍 (median)、4.7倍 (p95)、4.4倍 (p99) 削減する。
論文 参考訳(メタデータ) (2026-02-22T00:11:20Z) - Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts [68.79341332280062]
長いコンテキストでの大規模言語モデル(LLM)のトレーニングは、トレーニング時間ではなく、GPUメモリの異常なオーバーヘッドによって厳しく制限される。
この障壁に直面するメモリ効率の高いトレーニングシステムOOMBを紹介します。
本手法では,オンザフライアクティベーション・リコンピュテーションを備えたチャンク・リカレント・トレーニング・フレームワークを用いて,一定のアクティベーションメモリフットプリントを維持する。
論文 参考訳(メタデータ) (2026-02-02T13:52:40Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [15.76582272387931]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。
ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文 参考訳(メタデータ) (2025-03-13T03:36:03Z) - Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。