論文の概要: APreQEL: Adaptive Mixed Precision Quantization For Edge LLMs
- arxiv url: http://arxiv.org/abs/2603.23575v1
- Date: Tue, 24 Mar 2026 13:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:10.951573
- Title: APreQEL: Adaptive Mixed Precision Quantization For Edge LLMs
- Title(参考訳): APreQEL:エッジLLMのための適応混合精密量子化
- Authors: Meriem Bouzouad, Yuan-Hao Chang, Jalil Boukhobza,
- Abstract要約: 本稿では,エッジ配置におけるメモリ,レイテンシ,精度のバランスをとる適応型混合精度量子化機構を提案する。
我々の研究は、均一な量子化が達成できない新しい構成設計を解き、資源制約されたデバイスにLLMを効率的にデプロイするために、ソリューション空間を拡張します。
- 参考スコア(独自算出の注目度): 4.822345534269378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today, large language models have demonstrated their strengths in various tasks ranging from reasoning, code generation, and complex problem solving. However, this advancement comes with a high computational cost and memory requirements, making it challenging to deploy these models on edge devices to ensure real-time responses and data privacy. Quantization is one common approach to reducing memory use, but most methods apply it uniformly across all layers. This does not account for the fact that different layers may respond differently to reduced precision. Importantly, memory consumption and computational throughput are not necessarily aligned, further complicating deployment decisions. This paper proposes an adaptive mixed precision quantization mechanism that balances memory, latency, and accuracy in edge deployment under user-defined priorities. This is achieved by analyzing the layer-wise contribution and by inferring how different quantization types behave across the target hardware platform in order to assign the most suitable quantization type to each layer. This integration ensures that layer importance and the overall performance trade-offs are jointly respected in this design. Our work unlocks new configuration designs that uniform quantization cannot achieve, expanding the solution space to efficiently deploy the LLMs on resource-constrained devices.
- Abstract(参考訳): 今日、大規模な言語モデルは、推論、コード生成、複雑な問題解決など、様々なタスクにおいてその強みを実証している。
しかし、この進歩には高い計算コストとメモリ要件が伴うため、これらのモデルをエッジデバイスにデプロイして、リアルタイムの応答とデータのプライバシを保証することは困難である。
量子化はメモリ使用量を減らすための一般的なアプローチだが、ほとんどのメソッドはすべての層に一様に適用する。
これは、異なるレイヤが精度の低下に対して異なる応答をすることができるという事実を説明できない。
重要なのは、メモリ消費と計算スループットは必ずしも一致せず、デプロイメントの決定をさらに複雑にすることです。
本稿では,ユーザ定義の優先条件下でのエッジ配置において,メモリ,レイテンシ,精度のバランスをとる適応型混合精度量子化機構を提案する。
これは、層単位でのコントリビューションを分析し、各層に最適な量子化タイプを割り当てるために、異なる量子化タイプがターゲットハードウェアプラットフォーム全体でどのように振る舞うかを推測することで達成される。
この統合により、この設計において、レイヤの重要性と全体的なパフォーマンスのトレードオフが共同で尊重されることが保証されます。
我々の研究は、均一な量子化が達成できない新しい構成設計を解き、資源制約されたデバイスにLLMを効率的にデプロイするために、ソリューション空間を拡張します。
関連論文リスト
- SigmaQuant: Hardware-Aware Heterogeneous Quantization Method for Edge DNN Inference [3.6684096066755747]
エッジやモバイルデバイス上で高度なタスクを実行するには、ディープニューラルネットワーク(DNN)が不可欠だ。
彼らの展開は、メモリ、エネルギー、計算能力の制限を含む厳しいリソース制約によってしばしば妨げられる。
この研究は、適応的な層単位での不均一な量子化フレームワークである textbftextitSigmaQuantを導入している。
論文 参考訳(メタデータ) (2026-02-25T17:34:14Z) - QSLM: A Performance- and Memory-aware Quantization Framework with Tiered Search Strategy for Spike-driven Language Models [3.1061484260786014]
大規模言語モデル(LLM)は、多くの自然言語タスクを解決するための顕著なAIモデルとして登場してきた。
計算コストが大きく、メモリフットプリントが膨大で、処理能力/エネルギーが高いため、組み込みデプロイメントでは困難である。
本研究では,事前学習したSLMを圧縮するための自動量子化を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-02T13:05:33Z) - LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment [12.80921403367322]
大規模言語モデル(LLM)は、様々な領域で例外的なパフォーマンスを示す。
LLMのサイズとメモリ要件を削減した量子化技術は、リソース制限されたエッジデバイスにLLMをデプロイするのに有効である。
適応量子化システムLSAQ(Layer-Specific Adaptive Quantization)を提案する。
論文 参考訳(メタデータ) (2024-12-24T03:43:15Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。