論文の概要: Latent Context Compilation: Distilling Long Context into Compact Portable Memory
- arxiv url: http://arxiv.org/abs/2602.21221v1
- Date: Sat, 31 Jan 2026 08:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.656456
- Title: Latent Context Compilation: Distilling Long Context into Compact Portable Memory
- Title(参考訳): 遅延コンテキストコンパイル: 長いコンテキストをコンパクトなポータブルメモリに蒸留する
- Authors: Zeju Li, Yizhou Zhou, Qiang Xu,
- Abstract要約: 本稿では,コンテキスト処理を適応からコンパイルへシフトするフレームワークであるLatent Context Compilationを提案する。
使い捨てのLoRAモジュールをコンパイラとして利用することにより、長いコンテキストをコンパクトなバッファトークンに抽出する。
Llama-3.1-8Bによる実験では、遅延コンテキストコンパイルは詳細な詳細と推論能力を保持する。
- 参考スコア(独自算出の注目度): 13.768393657432027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient long-context LLM deployment is stalled by a dichotomy between amortized compression, which struggles with out-of-distribution generalization, and Test-Time Training, which incurs prohibitive synthetic data costs and requires modifying model weights, creating stateful parameters that complicate concurrent serving. We propose Latent Context Compilation, a framework that fundamentally shifts context processing from adaptation to compilation. By utilizing a disposable LoRA module as a compiler, we distill long contexts into compact buffer tokens -- stateless, portable memory artifacts that are plug-and-play compatible with frozen base models. Crucially, we introduce a self-aligned optimization strategy that eliminates the need for synthetic context-relevant QA pairs. By regularizing context reconstruction task with context-agnostic random queries, we force compressed tokens to reside within the model's existing instruction-following manifold. Experiments with Llama-3.1-8B demonstrate that Latent Context Compilation preserves fine-grained details and reasoning capabilities where prior methods falter, effectively decoupling memory density from model parameters even at a 16x compression ratio.
- Abstract(参考訳): 効率のよいLLMデプロイメントは、アウト・オブ・ディストリビューションの一般化に苦しむ償却圧縮と、禁忌な合成データコストを発生させ、モデルの重みを変更する必要のあるテストタイムトレーニングの2分断によって停滞する。
本稿では,コンテキスト処理を適応からコンパイルへ根本的にシフトするフレームワークであるLatent Context Compilationを提案する。
使い捨てのLoRAモジュールをコンパイラとして利用することにより、長いコンテキストを、フリーズベースモデルとプラグインと互換性のある、ステートレスでポータブルなメモリアーティファクトという、コンパクトなバッファトークンに抽出します。
重要なことは、合成文脈関連QAペアの必要性を解消する自己整合最適化戦略を導入することである。
文脈に依存しないランダムなクエリでコンテキスト再構成タスクを正規化することにより、圧縮されたトークンをモデルの既存の命令追従多様体内に配置させる。
Llama-3.1-8Bによる実験では、遅延コンテキストコンパイルは、16倍の圧縮比であっても、以前の手法がモデルパラメータからメモリ密度を効果的に分離する、きめ細かな詳細と推論能力を保っていることを示した。
関連論文リスト
- Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning [47.87361916374891]
本稿では,チャンクワイズ圧縮と選択的メモリリコールに基づく,効率的な長文推論のためのフレームワークを提案する。
このフレームワークは、長い入力をチャンクに分割し、各チャンクを学習圧縮機を用いて圧縮されたメモリ表現に符号化する。
ピークGPUメモリ使用量の最大2倍の削減と,MemAgent上での6倍の推論高速化を実現している。
論文 参考訳(メタデータ) (2026-02-09T08:33:11Z) - SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning [34.38636514331703]
CLaRaは、埋め込みベースの圧縮と共同最適化を共有連続空間で実行する統合フレームワークである。
実験により、CLaRaは、しばしばテキストベースの微調整ベースラインを超える、最先端の圧縮と性能の再ランクを達成することが示された。
論文 参考訳(メタデータ) (2025-11-24T00:11:14Z) - CompLLM: Compression for Long Context Q&A [47.90063873976842]
そこで本研究では,実用的デプロイメント用に設計されたソフト圧縮技術であるCompLLMを紹介する。
CompLLMはコンテキストを水平に処理する代わりにセグメントに分割し、それぞれを独立して圧縮する。
実験の結果,2倍圧縮速度でコンテクスト長のCompLLMでは,TTFT(Time To First Token)を最大4倍高速化し,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2025-09-23T16:49:43Z) - CCF: A Context Compression Framework for Efficient Long-Sequence Language Modeling [52.05149789178508]
CCFは、効率的な長期コンテキストモデリングを可能にするように設計された、新しいコンテキスト圧縮フレームワークである。
CCFはセグメントワイドなセマンティックアグリゲーションとキー-値メモリエンコーディングを統合し、コンパクトな表現を形成する。
複数の長文言語モデリングベンチマークによる実験結果から,CCFは高い圧縮比下での競合パープレキシティを実現することが示された。
論文 参考訳(メタデータ) (2025-09-11T07:13:49Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Recurrent Context Compression: Efficiently Expanding the Context Window of LLM [22.595457889113668]
この研究はRecurrent Context Compression (RCC)と呼ばれる手法を導入し、Transformerベースの大規模言語モデル(LLM)のコンテキストウィンドウ長を効率的に拡張する。
我々は,複数のタスクに対するアプローチを検証し,BLEU4スコアが0.95に近いテキスト再構成タスクで最大32倍の圧縮率を実現し,シーケンス長1Mのパスキー検索タスクで約100%の精度を実現した。
論文 参考訳(メタデータ) (2024-06-10T08:50:59Z) - Compressed Context Memory For Online Language Model Interaction [39.72054168889216]
本稿では,オンラインシナリオにおけるトランスフォーマー言語モデルに対する文脈キー/値圧縮手法を提案する。
コンテキストが長くなるにつれて、アテンションプロセスはメモリと計算量の増加を必要とし、それによって言語モデルのスループットが低下する。
本稿では,注目鍵/値ペアを連続的にコンパクトなメモリ空間に圧縮するコンテクストメモリシステムを提案する。
論文 参考訳(メタデータ) (2023-12-06T10:50:43Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。