論文の概要: Energy-Efficient Wireless LLM Inference via Uncertainty and Importance-Aware Speculative Decoding
- arxiv url: http://arxiv.org/abs/2508.12590v1
- Date: Mon, 18 Aug 2025 02:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.951057
- Title: Energy-Efficient Wireless LLM Inference via Uncertainty and Importance-Aware Speculative Decoding
- Title(参考訳): 不確かさと重要度を考慮した投機的復号化によるエネルギー効率の良い無線LLM推論
- Authors: Jihoon Park, Seungeun Oh, Seong-Lyun Kim,
- Abstract要約: エネルギー効率の高い重要度と不確実性を考慮したHLM推論のためのトークンレベルのフィルタリング機構を提案する。
提案手法は,情報トークンのみをアップロードし,LCM使用率と通信コストを低減させる。
- 参考スコア(独自算出の注目度): 2.801974469453156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To address the growing demand for on-device LLM inference in resource-constrained environments, hybrid language models (HLM) have emerged, combining lightweight local models with powerful cloud-based LLMs. Recent studies on HLM have primarily focused on improving accuracy and latency, while often overlooking communication and energy efficiency. We propose a token-level filtering mechanism for an energy-efficient importance- and uncertainty-aware HLM inference that leverages both epistemic uncertainty and attention-based importance. Our method opportunistically uploads only informative tokens, reducing LLM usage and communication costs. Experiments with TinyLlama-1.1B and LLaMA-2-7B demonstrate that our method achieves up to 87.5% BERT Score and token throughput of 0.37 tokens/sec while saving the energy consumption by 40.7% compared to standard HLM. Furthermore, compared to our previous U-HLM baseline, our method improves BERTScore from 85.8% to 87.0%, energy savings from 31.6% to 43.6%, and throughput from 0.36 to 0.40. This approach enables an energy-efficient and accurate deployment of LLMs in bandwidth-constrained edge environments.
- Abstract(参考訳): 資源制約環境におけるデバイス上でのLLM推論の需要の増加に対応するため,ハイブリッド言語モデル(HLM)が登場し,軽量なローカルモデルと強力なクラウドベースのLLMを組み合わせた。
HLMの最近の研究は、主に精度とレイテンシの改善に重点を置いているが、通信とエネルギー効率を見落としていることが多い。
本稿では,エネルギー効率の高い重要度と不確実性を考慮したHLM推論のためのトークンレベルのフィルタリング機構を提案する。
提案手法は,情報トークンのみをアップロードし,LCM使用率と通信コストを低減させる。
TinyLlama-1.1B と LLaMA-2-7B を用いて行った実験では,標準的な HLM と比較してエネルギー消費量を 40.7% 削減しつつ,最大87.5% BERTスコアと0.37トークン/秒のトークンスループットを達成した。
さらに,従来のU-HLMベースラインと比較して,BERTScoreを85.8%から87.0%,省エネを31.6%から43.6%,スループットを0.36から0.40に改善した。
このアプローチにより、帯域制限エッジ環境におけるLLMのエネルギー効率と正確な展開が可能になる。
関連論文リスト
- Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文 参考訳(メタデータ) (2025-06-30T02:56:11Z) - Communication-Efficient Hybrid Language Model via Uncertainty-Aware Opportunistic and Compressed Transmission [65.17811759381978]
ハイブリッド言語モデル(HLM)は、遠隔大言語モデル(LLM)によって検証され、修正されるドラフトトークンを生成する。
通信効率と不確実性を考慮したHLM(CU-HLM)を提案する。
CU-HLMは、74.8%のトランスミッションを97.4%の語彙圧縮でスキップし、97.4%の精度を維持しながら、最大206$times$高いトークンスループットを達成することを示す。
論文 参考訳(メタデータ) (2025-05-17T02:10:34Z) - Uncertainty-Aware Hybrid Inference with On-Device Small and Remote Large Language Models [49.48313161005423]
ハイブリッド言語モデル(HLM)アーキテクチャは、モバイル端末で動作する小さな言語モデル(SLM)と、無線ネットワークの基地局(BS)にホストされる大きな言語モデル(LLM)を統合する。
HLMトークン生成プロセスは、投機的推論の原則に従っている: SLMの語彙分布はLSMにアップロードされ、LPMによって再サンプリングされる。
本研究では,不確実性を考慮したHLM (Uncertainty-aware opportunistic HLM) という新しいHLM構造を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:08:18Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Learn To be Efficient: Build Structured Sparsity in Large Language Models [17.940183066850565]
大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。
既存の方法は、訓練後の環境で自然に形成された活性化空間の利用にのみ焦点をあてる。
本稿では,Learning-To-Efficient (LTE) という学習学習アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-02-09T01:18:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。