論文の概要: Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices
- arxiv url: http://arxiv.org/abs/2602.08060v1
- Date: Sun, 08 Feb 2026 17:09:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.959589
- Title: Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices
- Title(参考訳): 不均一エッジデバイス上での加速LDM推論のためのコンパイラ支援投機サンプリング
- Authors: Alejandro Ruiz y Mesa, Guilherme Korol, Moritz Riesteter, João Paulo Cardoso de Lima, Jeronimo Castrillon,
- Abstract要約: リソース制約のあるエッジデバイス上のLLMデプロイメントは、厳しいレイテンシ制約に直面している。
この研究は、不均一なハードウェア構成を探索し、LLMサブグラフの粗粒度パーティショニングをガイドする分析コストモデルを用いている。
このモデルは、投機サンプリングとヘテロジニアス実行が共同で有用であると予測し、ヘキサコアのCortex-A CPUとMali GPUを備えたエッジデバイスで検証する。
- 参考スコア(独自算出の注目度): 37.04691997023527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM deployment on resource-constrained edge devices faces severe latency constraints, particularly in real-time applications where delayed responses can compromise safety or usability. Among many approaches to mitigate the inefficiencies of sequential token-by-token generation, Speculative Decoding (SD) has emerged as a promising technique. However, SD at the edge is hindered by two major challenges: (1) integrating SD into a compiler-based workflow without sacrificing performance or programmability, and (2) exploiting the heterogeneous compute resources of modern SoCs through carefully designed partitioning strategies. This work addresses these challenges by using an analytical cost model that explores heterogeneous hardware configurations and guides coarse-grained partitioning of LLM subgraphs, particularly with edge-typical short input sequence lengths. The cost model predicts when speculative sampling and heterogeneous execution are jointly beneficial and is validated on an edge device featuring a hexacore Cortex-A CPU and a Mali GPU, revealing up to 1.68$\times$ speedup for translation tasks, closely matching analytic expectations.
- Abstract(参考訳): リソース制約のあるエッジデバイスへのLLMデプロイメントは、特に遅延応答が安全性やユーザビリティを損なう可能性があるリアルタイムアプリケーションにおいて、厳しいレイテンシ制約に直面している。
逐次トークン・バイ・トケン生成の非効率性を緩和する多くのアプローチの中で、投機的復号化(SD)が有望な手法として登場している。
しかし,SDのエッジ化は,(1)性能やプログラマビリティを犠牲にすることなく,SDをコンパイラベースのワークフローに統合すること,(2)高度に設計されたパーティショニング戦略を通じて,現代のSoCの異質な計算資源を活用すること,の2つの大きな課題によって妨げられている。
この研究は、不均一なハードウェア構成を探索し、特にエッジ型短入力シーケンス長でLLMサブグラフの粗粒度分割をガイドする分析コストモデルを用いて、これらの課題に対処する。
このコストモデルは、投機サンプリングとヘテロジニアス実行が共同で有用であると予測し、ヘキサコアのCortex-A CPUとMali GPUを備えたエッジデバイス上で検証され、翻訳タスクの最大1.68$\times$スピードアップが、分析期待と密接に一致していることを明らかにする。
関連論文リスト
- Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Ringleader ASGD: The First Asynchronous SGD with Optimal Time Complexity under Data Heterogeneity [51.56484100374058]
本稿では,並列計算の理論的下界を実現する最初の非同期アルゴリズムであるリングリーダーASGDを紹介する。
我々の分析により、リングリーダーASGDは任意の勾配と時間変化速度の下で最適であることが明らかとなった。
論文 参考訳(メタデータ) (2025-09-26T19:19:15Z) - Modality Agnostic Efficient Long Range Encoder [14.705955027331674]
汎用実装を用いた単一デバイス上での長文処理の課題に対処する。
これらの制約を克服するために、統一的で効率的なトランスアーキテクチャであるMAELREを提案する。
我々は、MAELREが既存の長文モデルと比較して計算コストを低減しつつ、優れた精度を達成できることを実証した。
論文 参考訳(メタデータ) (2025-07-25T16:19:47Z) - Optimization of DNN-based HSI Segmentation FPGA-based SoC for ADS: A Practical Approach [1.474723404975345]
本研究では,FPGA ベースの SOC 上にデプロイされた DNN ベースの HSI セグメンテーションプロセッサの実用的共同設計のための最適化手法を提案する。
応用圧縮技術により設計されたDNNの複雑さは、元の操作の24.34%、元のパラメータの1.02%に大幅に減少し、セグメンテーション精度を著しく低下させることなく、推論タスクの2.86倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-07-22T13:09:04Z) - Fast Second-Order Online Kernel Learning through Incremental Matrix Sketching and Decomposition [44.61147231796296]
オンライン学習(OKL)は、ストリーミング環境での予測性能が期待できるため、かなりの研究関心を集めている。
既存の2次OKLアプローチは、予め設定された予算に関して、少なくとも2次時間の複雑さに悩まされている。
本稿では,2次OKLに適した高速増分行列スケッチと分解手法FORTSを提案する。
論文 参考訳(メタデータ) (2024-10-15T02:07:48Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。