Fugu-MT 論文翻訳(概要): Quantization-Guided Training for Compact TinyML Models

論文の概要: Quantization-Guided Training for Compact TinyML Models

arxiv url: http://arxiv.org/abs/2103.06231v1
Date: Wed, 10 Mar 2021 18:06:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-11 15:03:39.784665
Title: Quantization-Guided Training for Compact TinyML Models
Title（参考訳）: 小型TinyMLモデルの量子化ガイドトレーニング
Authors: Sedigh Ghamari, Koray Ozcan, Thu Dinh, Andrey Melnikov, Juan Carvajal, Jan Ernst, Sek Chai
Abstract要約: 最適化された低ビット精度目標に対してDNNトレーニングを導くためのQGT(Quantization Guided Training)手法を提案する。 QGTはカスタマイズされた正規化を使用して、量子化エラーを減らしながら精度を最大化する分布に向けて重み値を促進する。
参考スコア（独自算出の注目度）: 8.266286436571887
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a Quantization Guided Training (QGT) method to guide DNN training towards optimized low-bit-precision targets and reach extreme compression levels below 8-bit precision. Unlike standard quantization-aware training (QAT) approaches, QGT uses customized regularization to encourage weight values towards a distribution that maximizes accuracy while reducing quantization errors. One of the main benefits of this approach is the ability to identify compression bottlenecks. We validate QGT using state-of-the-art model architectures on vision datasets. We also demonstrate the effectiveness of QGT with an 81KB tiny model for person detection down to 2-bit precision (representing 17.7x size reduction), while maintaining an accuracy drop of only 3% compared to a floating-point baseline.
Abstract（参考訳）: 量子化誘導訓練 (qgt) では, dnnのトレーニングを最適化された低ビット精度目標へ誘導し, 8ビット精度以下の極端圧縮レベルに達する。標準的な量子化対応トレーニング(QAT)アプローチとは異なり、QGTはカスタマイズされた正規化を使用して、量子化エラーを減らしながら精度を最大化する分布への重み付けを奨励する。このアプローチの主な利点の1つは、圧縮ボトルネックを特定する能力である。ビジョンデータセットの最先端モデルアーキテクチャを用いてqgtを検証する。また,81KBの小型モデルを用いたQGTの有効性を,浮動小数点ベースラインと比較してわずか3%の精度低下を保ちつつ,2ビット精度(17.7倍の縮小)で実証した。

関連論文リスト

Exploring Layer-wise Information Effectiveness for Post-Training Quantization in Small Language Models [4.238165821317982]
LieQは、極端に低ビット圧縮下でのサブ7Bモデルの精度を維持するという課題に対処するメトリック駆動フレームワークである。提案手法では,3つの相補的レイヤワイド診断手法(パープレキシティ・ドロップ,表現コンパクト性,トップkエネルギーゲイン)を導入している。 Qwen3-4Bでは、2.05ビット量子化でFP16ベースライン性能の95.9%を回復し、GPTQを19.7%、AWQを18.1%上回った。
論文参考訳（メタデータ） (2025-08-05T11:17:04Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文参考訳（メタデータ） (2025-04-10T02:19:03Z)
Quantize What Counts: Bit Allocation Insights Informed by Spectral Gaps in Keys and Values [57.54443445583921]
KV量子化法の拡張を目的とした2つの新しい定理を提供する。我々の最初の定理は、キー値ノルム格差(Key-Value Norm Disparity)と呼ばれ、鍵重み行列がよりリッチな情報を持っていることを述べる。第2の定理であるキー駆動量子化(Key-Driven Quantization)は、値上のキーの量子化精度の優先順位付けは、全体的な量子化性能に大きな改善をもたらすという仮説である。
論文参考訳（メタデータ） (2025-02-20T22:24:27Z)
GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。 GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文参考訳（メタデータ） (2024-10-30T11:16:04Z)
Norm Tweaking: High-performance Low-bit Quantization of Large Language Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文参考訳（メタデータ） (2023-09-06T06:51:15Z)
On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文参考訳（メタデータ） (2023-09-05T04:39:34Z)
Quantized Neural Networks for Low-Precision Accumulation with Guaranteed Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文参考訳（メタデータ） (2023-01-31T02:46:57Z)
Hyperspherical Quantization: Toward Smaller and More Accurate Models [17.154801913113566]
ベクトル量子化は、モデルウェイトを高精度な埋め込みでインデックス化することで、モデルサイズを減らすことを目的としている。バイナリや他の低精度量子化法は、モデルのサイズを32$times$まで削減できるが、かなりの精度低下を犠牲にすることができる。より小型で高精度な圧縮モデルを生成するために, 3次量子化のための効率的なフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-24T04:42:15Z)
Adaptive Low-Precision Training for Embeddings in Click-Through Rate Prediction [36.605153166169224]
埋め込みテーブルは通常、クリックスルーレート(CTR)予測モデルにおいて巨大である。我々は,低精度トレーニング(low-precision training)と呼ばれる,新しい量子化トレーニングパラダイムを定式化して,埋め込みをトレーニング段階から圧縮する。 CTRモデルでは,予測精度を犠牲にすることなく8ビット埋め込みのトレーニングに成功した。
論文参考訳（メタデータ） (2022-12-12T07:19:14Z)
SQuAT: Sharpness- and Quantization-Aware Training for BERT [43.049102196902844]
シャープネスと量子化アウェアトレーニング(SQuAT)を提案する。提案手法は,2,3,4ビット条件下で,最先端の量子化BERTモデルよりも1%向上する。また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
論文参考訳（メタデータ） (2022-10-13T16:52:19Z)
Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。 2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文参考訳（メタデータ） (2021-03-12T09:06:52Z)
DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文参考訳（メタデータ） (2020-12-21T10:19:42Z)
APQ: Joint Search for Network Architecture, Pruning and Quantization Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文参考訳（メタデータ） (2020-06-15T16:09:17Z)
Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文参考訳（メタデータ） (2020-04-15T20:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。