論文の概要: SpeContext: Enabling Efficient Long-context Reasoning with Speculative Context Sparsity in LLMs
- arxiv url: http://arxiv.org/abs/2512.00722v1
- Date: Sun, 30 Nov 2025 04:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.381426
- Title: SpeContext: Enabling Efficient Long-context Reasoning with Speculative Context Sparsity in LLMs
- Title(参考訳): SpeContext: LLMにおける投機的コンテキストスパーシリティによる効率的な長文推論の実現
- Authors: Jiaming Xu, Jiayi Pan, Hanzhen Wang, Yongkang Zhou, Jiancai Ye, Yu Wang, Guohao Dai,
- Abstract要約: 本稿では, 蒸留言語モデル(DLM)とLLMの類似性を情報理論の観点から分析する。
長文推論のためのアルゴリズムとシステムの共同設計であるSpeContextを提案する。
- 参考スコア(独自算出の注目度): 13.231762612368376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we point out that the objective of the retrieval algorithms is to align with the LLM, which is similar to the objective of knowledge distillation in LLMs. We analyze the similarity in information focus between the distilled language model(DLM) and the original LLM from the perspective of information theory, and thus propose a novel paradigm that leverages a DLM as the retrieval algorithm. Based on the insight, we present SpeContext, an algorithm and system co-design for long-context reasoning. (1) At the algorithm level, SpeContext proposes lightweight retrieval head based on the head-level attention weights of DLM, achieving > 90% parameters reduction by pruning the redundancy. (2) At the system level, SpeContext designs an asynchronous prefetch dataflow via the elastic loading strategy, effectively overlapping KV cache retrieval with the LLM computation. (3) At the compilation level, SpeContext constructs the theoretical memory model and implements an adaptive memory management system to achieve acceleration by maximizing GPU memory utilization. We deploy and evaluate SpeContext in two resourceconstrained environments, cloud and edge. Extensive experiments show that, compared with the Huggingface framework, SpeContext achieves up to 24.89x throughput improvement in cloud and 10.06x speedup in edge with negligible accuracy loss, pushing the Pareto frontier of accuracy and throughput.
- Abstract(参考訳): 本稿では,LLM における知識蒸留の目的と類似した LLM と一致する検索アルゴリズムの目的を指摘する。
本稿では, 蒸留言語モデル(DLM)とLLMの類似性を情報理論の観点から分析し, DLMを検索アルゴリズムとして活用する新しいパラダイムを提案する。
この知見に基づき、長文推論のためのアルゴリズムとシステムの共同設計であるSpeContextを提案する。
1)アルゴリズムレベルでは,DLMの頭部レベルの注意重みに基づく軽量な検索ヘッドを提案する。
2) システムレベルでは,SpeContext は弾性負荷戦略により非同期プレフェッチデータフローを設計し,KV キャッシュの検索と LLM 計算を効果的にオーバーラップする。
(3) コンパイルレベルでは,SpeContext は理論メモリモデルを構築し,GPU メモリ利用を最大化してアクセラレーションを実現する適応メモリ管理システムを実装している。
クラウドとエッジという2つのリソース制約のある環境でSpeContextをデプロイし、評価します。
Huggingfaceフレームワークと比較して、SpeContextはクラウドでの最大24.89倍のスループット向上とエッジでの10.06倍のスピードアップを実現しており、精度とスループットのParetoフロンティアを推し進めている。
関連論文リスト
- Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - Parametric Retrieval Augmented Generation [32.29608109539912]
Parametric RAGは、外部知識を直接フィードフォワードネットワークのパラメータに統合する新しいRAGパラダイムである。
これは、大きな言語モデルにおける知識増強の有効性と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-01-27T10:04:49Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Bridging LLMs and KGs without Fine-Tuning: Intermediate Probing Meets Subgraph-Aware Entity Descriptions [49.36683223327633]
大規模言語モデル(LLM)は、幅広い世界の知識をカプセル化し、強力なコンテキストモデリング能力を示す。
実効的で効率的なKGCを実現するために,LLMの強みを頑健な知識表現と相乗化するための新しいフレームワークを提案する。
従来手法に比べて47%の相対的な改善を達成し,我々の知る限り,ファインチューニング LLM に匹敵する分類性能を初めて達成した。
論文 参考訳(メタデータ) (2024-08-13T10:15:55Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。