論文の概要: The Missing Memory Hierarchy: Demand Paging for LLM Context Windows
- arxiv url: http://arxiv.org/abs/2603.09023v1
- Date: Mon, 09 Mar 2026 23:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.898042
- Title: The Missing Memory Hierarchy: Demand Paging for LLM Context Windows
- Title(参考訳): 欠落したメモリ階層: LLMコンテキストWindowsのデマンドページング
- Authors: Tony Mason,
- Abstract要約: 我々は、コンテキストウィンドウのための需要パージングシステムPichayを紹介する。
681ターン以上のライブデプロイメントでは、コンテキスト消費を最大93%削減する(5,038KBから339KB)。
極端に持続的な圧力の下では、システムは引き続き運用されるが、期待されるスラッシングの病理を示し、繰り返し削除されたコンテンツに障害が生じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The context window of a large language model is not memory. It is L1 cache: a small, fast, expensive resource that the field treats as the entire memory system. There is no L2, no virtual memory, no paging. Every tool definition, every system prompt, and every stale tool result occupies context for the lifetime of the session. The result is measurable: across 857 production sessions and 4.45 million effective input tokens, 21.8% is structural waste. We present Pichay, a demand paging system for LLM context windows. Implemented as a transparent proxy between client and inference API, Pichay interposes on the message stream to evict stale content, detect page faults when the model re-requests evicted material, and pin working-set pages identified by fault history. In offline replay across 1.4 million simulated evictions, the fault rate is 0.0254%. In live production deployment over 681turns, the system reduces context consumption by up to 93% (5,038KB to 339KB); under extreme sustained pressure, the system remains operational but exhibits the expected thrashing pathology, with repeated fault-in of evicted content. The key observation is that the problems the field faces, such as context limits, attention degradation, cost scaling, lost state across sessions, are virtual memory problems wearing different clothes. The solutions exist: working set theory (Denning, 1968), demand paging, fault-driven replacement policies, and memory hierarchies with multiple eviction-managed levels. We describe the architecture of a full memory hierarchy for LLM systems (L1 through persistent storage), report on the first three levels deployed in production use (L1 eviction, L2 fault-driven pinning, L3 model-initiated conversation compaction), and identify cross-session memory as the remaining frontier.
- Abstract(参考訳): 大きな言語モデルのコンテキストウィンドウはメモリではない。
L1キャッシュ:フィールドがメモリシステム全体として扱う、小さくて高速で高価なリソースである。
L2も仮想メモリもページングもない。
すべてのツール定義、すべてのシステムプロンプト、そしてすべての古いツール結果は、セッションの存続期間のコンテキストを占有します。
857回の生産セッションと445万の効果的な入力トークン、21.8%は構造廃棄物である。
LLMコンテキストウインドウのための需要ページングシステムPichayを提案する。
クライアントと推論APIの間の透過的なプロキシとして実装されたPichayは、メッセージストリームにインターセプトして、古いコンテンツを削除し、モデルが削除された資料を再検索したときにページフォールトを検出し、フォールト履歴によって識別されたワーキングセットページをピンする。
140万のシミュレートによるオフラインリプレイでは、フォールトレートは0.0254%である。
681ターン以上の実運用では、システムはコンテキスト消費を最大93%(5,038KBから339KB)削減する。
キーとなる観察は、フィールドが直面する、コンテキスト制限、注意力の低下、コストスケーリング、セッション間の損失状態などの問題は、異なる服を着ている仮想記憶の問題であるということである。
解決策は、ワーキングセット理論(Denning, 1968)、要求ページング、フォールト駆動の代替ポリシー、複数のエビクション管理レベルを持つメモリ階層である。
LLMシステムのための完全なメモリ階層(L1は永続ストレージ)のアーキテクチャを記述し、本番環境に配備された最初の3つのレベル(L1エビテーション、L2フォールト駆動ピンニング、L3モデル初期化会話圧縮)について報告し、残りのフロンティアとしてクロスセッションメモリを識別する。
関連論文リスト
- Exploring Multimodal LMMs for Online Episodic Memory Question Answering on the Edge [9.701124246177661]
本稿では,マルチモーダル大言語モデル(MLLM)をリアルタイムなオンラインエピソードメモリ質問応答に適用する可能性について検討する。
QAEgo4D-Closedベンチマークの実験では、厳密なリソース境界内でのマルチモーダル大言語モデル(MLLM)の性能を分析した。
論文 参考訳(メタデータ) (2026-02-25T22:30:56Z) - Contextual Memory Virtualisation: DAG-Based State Management and Structurally Lossless Trimming for LLM Agents [0.0]
我々は,蓄積したLLM理解をバージョン管理状態として扱うシステムであるコンテキスト記憶仮想化(CMV)を提案する。
CMVはセッション履歴を、正式に定義されたスナップショット、ブランチ、トリムプリミティブを備えたDAG(Directed Acyclic Graph)としてモデル化する。
シングルユーザによるケーススタディ評価では、トリミングが迅速なキャッシュの下で経済的に有効であることが示されている。
論文 参考訳(メタデータ) (2026-02-25T20:52:52Z) - AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems [0.0]
本稿では,エージェントメモリを管理システムリソースとして扱うメモリ管理フレームワークであるAMV-Lを提案する。
AMV-Lはスループットを3.1倍改善し、レイテンシを4.2倍 (median)、4.7倍 (p95)、4.4倍 (p99) 削減する。
論文 参考訳(メタデータ) (2026-02-22T00:11:20Z) - MemCtrl: Using MLLMs as Active Memory Controllers on Embodied Agents [53.44122827359892]
本稿では,Multimodal Large Language Models (MLLM) を用いたメモリのオンラインプルーニングフレームワークであるMemCtrlを提案する。
拡張MLLMは平均で16%、特定の命令サブセットで20%以上改善されている。
論文 参考訳(メタデータ) (2026-01-28T18:31:17Z) - Agentic Learner with Grow-and-Refine Multimodal Semantic Memory [50.81667005063605]
ViLoMemは、コンパクトなスキーマベースのメモリを構築するデュアルストリームメモリフレームワークである。
視覚的障害パターンと論理的推論エラーを符号化し、MLLMが成功し失敗した経験から学ぶことを可能にする。
論文 参考訳(メタデータ) (2025-11-26T18:55:08Z) - LightMem: Lightweight and Efficient Memory-Augmented Generation [72.21680105265824]
我々は、メモリシステムの性能と効率のバランスをとるLightMemという新しいメモリシステムを紹介した。
人間の記憶のアトキンソン・シフリンモデルにインスパイアされたLightMemは、メモリを3つの相補的なステージにまとめる。
GPTとQwenのバックボーンを用いたLongMemEvalの実験では、LightMemは高いベースライン(最大10.9%のゲイン)を上回り、トークンの使用量を最大117倍に削減している。
論文 参考訳(メタデータ) (2025-10-21T17:58:17Z) - video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory [51.03819128505358]
Video-SALMONN Sは、まず1FPSと360p解像度で3時間ビデオを処理する。
テストタイムトレーニングメモリモジュールは、トークン表現を継続的に更新して、長距離依存関係をキャプチャする。
プロンプト依存メモリリーダは、固定サイズメモリからコンテキスト関連コンテンツを検索する。
論文 参考訳(メタデータ) (2025-10-13T08:20:15Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Efficient Memory Management for Large Language Model Serving with
PagedAttention [44.70922552274376]
大規模言語モデル(LLM)の高スループットサービスには,一度に十分な数の要求が要求される。
既存のシステムでは、各要求のキー値キャッシュ(KVキャッシュ)メモリが巨大で、成長し、動的に縮小するため、苦労している。
本稿では,オペレーティングシステムにおける従来の仮想メモリとページング技術にヒントを得たアテンションアルゴリズムであるPagedAttentionを提案する。
論文 参考訳(メタデータ) (2023-09-12T12:50:04Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。