Fugu-MT 論文翻訳(概要): Squat: Quant Small Language Models on the Edge

論文の概要: Squat: Quant Small Language Models on the Edge

arxiv url: http://arxiv.org/abs/2402.10787v2
Date: Tue, 01 Jul 2025 19:43:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:22:55.751755
Title: Squat: Quant Small Language Models on the Edge
Title（参考訳）: Squat:エッジ上の量子小言語モデル
Authors: Xuan Shen, Peiyan Dong, Zhenglun Kong, Yifan Gong, Changdi Yang, Zhaoyang Han, Yanyue Xie, Lei Lu, Cheng Lyu, Chao Wu, Yanzhi Wang, Pu Zhao,
Abstract要約: 数百万のパラメータを持つ高品質のSLM(Small Language Models)の設計において、増加傾向が生まれている。モバイルデバイス上でのSLMでは,完全なパラメータトレーニングが実現可能であることを考えると,QAT(Quantization-Aware Training)が有効である。本研究では,モバイルデバイス上でSLMをデプロイ可能な量子化を実現するためのQATフレームワークであるSquat法を提案する。
参考スコア（独自算出の注目度）: 45.448118471829474
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A growing trend has emerged in designing high-quality Small Language Models (SLMs) with a few million parameters. This trend is driven by the increasing concerns over cloud costs, privacy, and latency. Considering that full parameter training is feasible for SLMs on mobile devices, Quantization-Aware Training (QAT) is employed to improve efficiency by reducing computational overhead and memory footprint. However, previous QAT works adopt fine-grained quantization methods to compress models with billions of parameters on GPUs, incompatible with current commodity hardware, such as mobile and edge devices, which relies on Single Instruction Multiple Data (SIMD) instructions. Thus, the generalization of these methods to SLMs on mobile devices is limited. In this paper, we propose Squat method, an effective QAT framework with deployable quantization for SLMs on mobile devices. Specifically, we propose entropy-guided and distribution-aligned distillation to mitigate the distortion of attention information from quantization. Besides, we employ sub-8-bit token adaptive quantization, assigning varying bit widths to different tokens based on their importance. Furthermore, we develop a SIMD-based Multi-Kernel Mixed-Precision (MKMP) multiplier to support sub-8-bit mixed-precision MAC on mobile devices. Our extensive experiments verify the substantial improvements of our method compared to other QAT methods across various datasets. Furthermore, we achieve an on-device speedup of up to 2.37x compared with its FP16 counterparts, signaling a great advancement. Code: https://github.com/shawnricecake/squant
Abstract（参考訳）: 数百万のパラメータを持つ高品質のSLM(Small Language Models)の設計において、増加傾向が生まれている。この傾向は、クラウドコスト、プライバシ、レイテンシに関する懸念の高まりによって引き起こされる。モバイル機器上でのSLMにおいて完全なパラメータトレーニングが実現可能であることを考えると、計算オーバーヘッドとメモリフットプリントを削減して効率を向上させるために量子化認識トレーニング(QAT)が用いられている。しかし、従来のQATでは、シングルインストラクション多重データ(SIMD)命令に依存するモバイルやエッジデバイスのような現行のコモディティハードウェアと互換性のない、GPU上で数十億のパラメータを持つモデルを圧縮するためのきめ細かい量子化手法を採用していた。したがって、これらの手法をモバイルデバイス上のSLMに一般化することは限られている。本稿では,モバイルデバイス上でSLMをデプロイ可能な量子化を実現するためのQATフレームワークであるSquat法を提案する。具体的には, 量子化による注目情報の歪みを軽減するために, エントロピー誘導・分布整合蒸留を提案する。さらに、サブ8ビットのトークン適応量子化を採用し、その重要性に基づいて異なるビット幅を異なるトークンに割り当てる。さらに,SIMDベースのマルチカーネル混合精度(MKMP)乗算器を開発し,モバイルデバイス上で8ビット未満の混合精度MACをサポートする。各種データセットにおける他のQAT手法と比較して,本手法の大幅な改善を検証した。さらに、デバイス上での高速化はFP16に比べて最大2.37倍に向上し、大きな進歩を示している。コード:https://github.com/shawnricecake/squant

関連論文リスト

MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。資源制約されたプラットフォームにおける高い計算コスト制限。我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-10-16T18:00:00Z)
Scaling LLM Test-Time Compute with Mobile NPU on Smartphones [18.50846535848905]
本稿では,移動型ニューラルプロセッシングユニット (NPU) が計算資源を過小評価していることを示す。そこで本研究では,モバイルNPUに並列テスト時間スケーリング手法を適用し,小型LLMの性能を向上させることを提案する。混合精度GEMMは19.0、ソフトマックスは2.2である。
論文参考訳（メタデータ） (2025-09-27T14:17:46Z)
MEC-Quant: Maximum Entropy Coding for Extremely Low Bit Quantization-Aware Training [15.099918961133866]
QAT(Quantization-Aware Training)は、効率的なニューラルネットワークを生み出すために多くの注目を集めている。量子化は必然的に学習表現にバイアスをもたらす、と我々は主張する。本稿ではエントロピー符号化量子化(MEC-Quant)を提案する。
論文参考訳（メタデータ） (2025-09-19T01:37:02Z)
End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文参考訳（メタデータ） (2025-08-21T01:18:27Z)
LLMPi: Optimizing LLMs for High-Throughput on Raspberry Pi [0.48212500317840945]
Raspberry Piのようなリソース制約のあるエッジデバイス上の大規模言語モデル(LLM)は、計算効率、消費電力、レスポンスレイテンシの課題を提示している。本稿では,低消費電力組込みシステム上でのLLMの高スループット・エネルギー効率実行を実現するために,量子化に基づく最適化手法について検討する。我々の発見は、エッジデバイス上でリアルタイムの対話型AIのための量子LLMの可能性を強調し、モバイルおよび組み込みアプリケーションにおける低消費電力で高効率なAIデプロイメントの道を開いた。
論文参考訳（メタデータ） (2025-04-02T20:29:39Z)
QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文参考訳（メタデータ） (2025-03-20T21:03:10Z)
PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。 PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文参考訳（メタデータ） (2025-03-15T15:11:17Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
OstQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting [20.944120156871108]
後学習量子化(PTQ)は、Large Language Models(LLMs)の圧縮・加速技術として広く採用されている。 LLM量子化における大きな課題は、不均一で重み付きデータ分布が量子化範囲を拡大し、ほとんどの値のビット精度を低下させることである。本稿では、量子化空間におけるデータの空間利用率を測定することにより、変換データの量子化性を効果的に評価する新しい指標である量子化空間利用率(BrotherQSUR)を紹介する。
論文参考訳（メタデータ） (2025-01-23T08:24:25Z)
QSpec: Speculative Decoding with Complementary Quantization Schemes [37.007621357142725]
量子化は、推論を加速し、大きな言語モデルのメモリ消費を減らすために、実質的に採用されている。本稿では、投機的復号化のための2つの相補的量子化スキームをシームレスに統合するQSPECと呼ばれる新しい量子化パラダイムを提案する。 QSPECは、品質上の妥協なしにトークン生成スループットを最大1.80倍向上させる。
論文参考訳（メタデータ） (2024-10-15T05:57:51Z)
SLaNC: Static LayerNorm Calibration [1.2016264781280588]
より精度の低いフォーマットへの量子化は、利用可能な値表現の限られた範囲によって引き起こされる多くの課題を自然に引き起こす。本稿では,推論中のTransformerモデルに容易に適用可能な,計算効率のよいスケーリング手法を提案する。提案手法は,直近の線形層の静的重みに基づくLayerNorm入力のスケーリング方法を提案する。
論文参考訳（メタデータ） (2024-10-14T14:32:55Z)
AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文参考訳（メタデータ） (2024-07-17T18:38:48Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
The Quantum Imitation Game: Reverse Engineering of Quantum Machine Learning Models [2.348041867134616]
量子機械学習(QML)は、機械学習モデルと量子コンピューティングのパラダイムを融合させる。量子コンピューティングのNoisy Intermediate-Scale Quantum(NISQ)時代における多くのサードパーティベンダーの拡大により、QMLモデルのセキュリティが最重要となる。我々は、信頼できない量子クラウドプロバイダが、推論中にトランスパイルされたユーザ設計のトレーニングされたQMLモデルにホワイトボックスアクセスを持つ敵であると仮定する。
論文参考訳（メタデータ） (2024-07-09T21:35:19Z)
OutlierTune: Efficient Channel-Wise Quantization for Large Language Models [24.645237670811476]
OutlierTuneは、大規模言語モデルのアクティベーションのための効率的なチャネルごとのポストトレーニング量子化手法である。提案するフレームワークは実装が容易で、ハードウェア効率が良く、推論中に計算オーバーヘッドがほとんど発生しない。
論文参考訳（メタデータ） (2024-06-27T02:02:26Z)
MixDQ: Memory-Efficient Few-Step Text-to-Image Diffusion Models with Metric-Decoupled Mixed Precision Quantization [16.83403134551842]
最近の数ステップの拡散モデルでは、デノナイジングステップを減らして推論時間を短縮している。 Post Training Quantization (PTQ)は、高ビット幅のFP表現を低ビット整数値に置き換える。しかし、数ステップの拡散モデルに適用する場合、既存の量子化法は画質とテキストアライメントの両方を維持する上で困難に直面している。
論文参考訳（メタデータ） (2024-05-28T06:50:58Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
PikeLPN: Mitigating Overlooked Inefficiencies of Low-Precision Neural Networks [4.827161693957252]
非量子化要素演算は、低精度モデルの推論コストを支配している。 PikeLPNモデルは、要素演算と乗算累積演算の両方に量子化を適用することで、これらの問題に対処する。
論文参考訳（メタデータ） (2024-03-29T18:23:34Z)
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文参考訳（メタデータ） (2024-02-19T11:33:21Z)
Agile-Quant: Activation-Guided Quantization for Faster Inference of LLMs on the Edge [45.690907522226794]
大きな言語モデル(LLM)は、複雑な言語モデリングタスクにおける印象的なパフォーマンスで際立っている。近年の研究では、エンド・ツー・エンドのタスク性能に最小限の影響を伴って、8ビット以下のウェイト量子化が可能であることが示されている。我々は、人気のある大規模言語モデルのためのアクティベーション誘導量子化フレームワークであるAgile-Quantを提案する。
論文参考訳（メタデータ） (2023-12-09T22:12:52Z)
MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。 MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。 8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文参考訳（メタデータ） (2023-10-11T17:57:14Z)
On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文参考訳（メタデータ） (2023-09-05T04:39:34Z)
QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文参考訳（メタデータ） (2023-09-05T01:39:09Z)
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文参考訳（メタデータ） (2023-08-25T02:28:35Z)
PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。 PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。 BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文参考訳（メタデータ） (2023-05-30T08:41:33Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。