論文の概要: DeltaLLM: A Training-Free Framework Exploiting Temporal Sparsity for Efficient Edge LLM Inference
- arxiv url: http://arxiv.org/abs/2507.19608v1
- Date: Fri, 25 Jul 2025 18:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.773333
- Title: DeltaLLM: A Training-Free Framework Exploiting Temporal Sparsity for Efficient Edge LLM Inference
- Title(参考訳): DeltaLLM: 効率的なエッジLLM推論のための時間間隔を爆発させるトレーニング不要フレームワーク
- Authors: Jiawen Qi, Chang Gao, Zhaochun Ren, Qinyu Chen,
- Abstract要約: デルタLLMは、リソース制約エッジデバイス上での効率的なLCM推論を実現するために、注意パターンの時間的間隔を利用する訓練不要のフレームワークである。
我々は、エッジデバイスフレンドリーなBitNet-b1.58-2B-4TモデルとLlama3.2-1B-Instructモデルについて、様々な言語タスクで評価する。
- 参考スコア(独自算出の注目度): 19.987309147268586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying Large Language Models (LLMs) on edge devices remains challenging due to their quadratically increasing computations with the sequence length. Existing studies for dynamic attention pruning are designed for hardware with massively parallel computation capabilities, such as GPUs or TPUs, and aim at long context lengths (e.g., 64K), making them unsuitable for edge scenarios. We present DeltaLLM, a training-free framework that exploits temporal sparsity in attention patterns to enable efficient LLM inference across both the prefilling and decoding stages, on resource-constrained edge devices. DeltaLLM introduces an accuracy- and memory-aware delta matrix construction strategy that introduces temporal sparsity, and a context-aware hybrid attention mechanism that combines full attention in a local context window with delta approximation outside it to increase accuracy. We evaluate our framework on the edge-device-friendly BitNet-b1.58-2B-4T model and Llama3.2-1B-Instruct model across diverse language tasks. The results show that on BitNet, our framework increases the attention sparsity from 0% to 60% during the prefilling stage with slight accuracy improvement on the WG task, and 0% to 57% across both the prefilling and decoding stages, with even higher F1 score from 29.63 to 30.97 on SQuAD-v2 task. On the Llama model, it can also achieve up to 60% sparsity during the prefilling stage and around 57% across both stages with negligible accuracy drop. These results demonstrate that DeltaLLM offers a promising solution for efficient edge deployment, requiring no fine-tuning and seamlessly integrating with existing inference pipelines.
- Abstract(参考訳): エッジデバイスにLLM(Large Language Models)をデプロイすることは、シーケンス長が2次的に増加するため、依然として困難である。
動的アテンションプルーニングのための既存の研究は、GPUやTPUのような非常に並列な計算能力を持つハードウェア向けに設計されており、長いコンテキスト長(例えば64K)を目指しており、エッジシナリオには適さない。
デルタLLMは注意パターンの時間的間隔を利用して、リソース制約のあるエッジデバイス上で、前処理および復号段階の両方で効率的なLCM推論を実現する。
DeltaLLMは、時間的空間性を導入する精度とメモリを意識したデルタ行列構築戦略と、局所的なコンテキストウィンドウにおけるフルアテンションと、その外部のデルタ近似を組み合わせて精度を高めるコンテキスト対応ハイブリッドアテンションメカニズムを導入している。
我々は、エッジデバイスフレンドリーなBitNet-b1.58-2B-4TモデルとLlama3.2-1B-Instructモデルについて、様々な言語タスクで評価する。
その結果,BitNetでは,SQuAD-v2タスクではF1スコアが29.63点から30.97点に上昇し,WGタスクの精度がわずかに向上し,注意間隔が0%から60%に増加し,プリフィルとデコードの両方で0%から57%に向上した。
Llamaモデルでは、プレフィル段階で最大60%の間隔を達成でき、両方のステージで約57%の精度低下を達成できる。
これらの結果は、DeltaLLMが効率的なエッジデプロイメントのための有望なソリューションを提供し、微調整や既存の推論パイプラインとのシームレスな統合を必要としないことを実証している。
関連論文リスト
- Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive [58.0729162588429]
インタラクティブセグメンテーションは、ユーザプロンプトからターゲット領域をセグメンテーションすることで、アノテーション効率を向上させる。
現在のアプローチは重要なトレードオフに直面している。密度の高いメソッドは精度が向上するが、CPUデバイスでの処理が著しく遅くなる。
そこで我々は,高密度な処理における計算割り当てを最適化することで,この問題に対処するInter2Formerを提案する。
論文 参考訳(メタデータ) (2025-07-13T12:33:37Z) - Hybrid Systolic Array Accelerator with Optimized Dataflow for Edge Large Language Model Inference [8.475319961845903]
エッジアクセラレータは、高い領域効率を実現し、外部メモリアクセスを最小限にする。
本稿では,ハイブリッドシストリックアレイアーキテクチャを特徴とするエッジLLM推論アクセラレータを提案する。
我々のソリューションは、ロングインプット/ロングアウトプットのシナリオで1.3B LLMを実行しながら247/117 (token/s/mm2)を達成する。
論文 参考訳(メタデータ) (2025-07-11T20:27:30Z) - Scaling Attention to Very Long Sequences in Linear Time with Wavelet-Enhanced Random Spectral Attention (WERSA) [1.7622426179653563]
トランスフォーマーモデルは、通常の注意が2次的なO(n2)$時間複雑性を持つため、長い列で計算にコストがかかる。
WERSA(Wavelet-Enhanced Random Spectral Attention)は、線形な$O(n)$時間複雑性のメカニズムである。
計算負荷を大幅に削減し、精度を損なうことなく、WERSAはより実用的で安価で長いコンテキストモデルを可能にする。
論文 参考訳(メタデータ) (2025-07-11T14:40:40Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - Fragile Mastery: Are Domain-Specific Trade-Offs Undermining On-Device Language Models? [0.0]
Generalized Edge Model (GEM) は、堅牢性と一般化を調和的にバランスさせることを目的としている。
GEMはSparse Cross-Attention Router (SCAR) を使用して、可変数のコンピューティングリソースに動的に割り当てる。
GPT-4 Liteと比較して、GEMはドメイン固有のパフォーマンスの尊重と同等性に対して、一般タスクレベルを7%向上させる。
論文 参考訳(メタデータ) (2025-03-16T18:30:26Z) - ParallelComp: Parallel Long-Context Compressor for Length Extrapolation [51.68913021512016]
超長い文脈(テキスト長 >128K)の補間は、大きな言語モデル(LLM)にとって大きな課題である。
本研究では,メモリボトルネックを効果的に克服する並列長コンテキスト圧縮手法であるParallelCompを提案する。
チャンクスループットが1.76倍向上し、プリフィル段階では23.50倍の高速化を実現し、性能損失を無視できる。
論文 参考訳(メタデータ) (2025-02-20T07:10:43Z) - CMoE: Converting Mixture-of-Experts from Dense to Accelerate LLM Inference [33.871080938643566]
CMoEは、高密度言語モデルをトレーニングなしで、ミックス・オブ・エキスパート(MoE)に迅速に変換するフレームワークである。
実験により、75%の活性化比で、パープレキシティの点で顕著な結果が得られることが示された。
パラメータの25%をアクティベートするCMoE構成は、追加のトレーニングなしで使用可能なパープレキシティを保ちながら、エンドツーエンドのレイテンシを1.5倍削減する。
論文 参考訳(メタデータ) (2025-02-06T14:05:30Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - EdgeOL: Efficient in-situ Online Learning on Edge Devices [51.86178757050963]
予測精度、微調整実行時間、エネルギー効率を最適化するエッジオンライン学習フレームワークであるEdgeOLを提案する。
実験結果から、EdgeOLは、全体の微調整実行時間を64%削減し、エネルギー消費を52%削減し、オンラインの即時学習戦略よりも平均推定精度を1.75%向上させることがわかった。
論文 参考訳(メタデータ) (2024-01-30T02:41:05Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。