論文の概要: Towards a tailored mixed-precision sub-8-bit quantization scheme for
Gated Recurrent Units using Genetic Algorithms
- arxiv url: http://arxiv.org/abs/2402.12263v2
- Date: Fri, 8 Mar 2024 21:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 14:13:16.176101
- Title: Towards a tailored mixed-precision sub-8-bit quantization scheme for
Gated Recurrent Units using Genetic Algorithms
- Title(参考訳): 遺伝的アルゴリズムを用いたGated Recurrent Unitの調整型混合精度サブ8ビット量子化法
- Authors: Riccardo Miccini, Alessandro Cerioli, Cl\'ement Laroche, Tobias
Piechowiak, Jens Spars{\o}, Luca Pezzarossa
- Abstract要約: ゲーテッド・リカレント・ユニット(GRU)は内部状態に依存しているためチューニングが難しい。
本稿では,各演算子のビット幅を独立に選択できるGRUのモジュラ整数量子化方式を提案する。
- 参考スコア(独自算出の注目度): 39.979007027634196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent advances in model compression techniques for deep neural
networks, deploying such models on ultra-low-power embedded devices still
proves challenging. In particular, quantization schemes for Gated Recurrent
Units (GRU) are difficult to tune due to their dependence on an internal state,
preventing them from fully benefiting from sub-8bit quantization. In this work,
we propose a modular integer quantization scheme for GRUs where the bit width
of each operator can be selected independently. We then employ Genetic
Algorithms (GA) to explore the vast search space of possible bit widths,
simultaneously optimising for model size and accuracy. We evaluate our methods
on four different sequential tasks and demonstrate that mixed-precision
solutions exceed homogeneous-precision ones in terms of Pareto efficiency. In
our results, we achieve a model size reduction between 25% and 55% while
maintaining an accuracy comparable with the 8-bit homogeneous equivalent.
- Abstract(参考訳): ディープニューラルネットワークのモデル圧縮技術の最近の進歩にもかかわらず、そのようなモデルを超低消費電力の組み込みデバイスにデプロイすることは依然として困難である。
特に、ゲートリカレント単位(gru)の量子化スキームは、内部状態に依存するためチューニングが困難であり、サブ8ビット量子化の恩恵を受けることができない。
本稿では,各演算子のビット幅を独立に選択できるGRUのモジュラ整数量子化方式を提案する。
次に遺伝的アルゴリズム(ga)を用いて、可能なビット幅の広大な探索空間を探索し、モデルサイズと精度を同時に最適化する。
提案手法を4つの異なる逐次タスクで評価し, 混合精度解がパレート効率の点で均一精度を超えることを示す。
その結果, モデルサイズを25%から55%に削減し, 8ビット同質等価値に匹敵する精度を維持した。
関連論文リスト
- Toward Capturing Genetic Epistasis From Multivariate Genome-Wide Association Studies Using Mixed-Precision Kernel Ridge Regression [4.356528958652799]
英国バイオバンクの305K患者を対象としたGWAS(Genome-Wide Association Studies)の出力精度保存混合精度計算の性能を向上する。
低精度GPU演算によるデータ移動ゲインの強化によるタイル中心適応精度線形代数技術
ほぼ完全なAlpsシステム上で1.805の混合精度ExaOp/sで、最先端のCPU専用REGENIE GWASソフトウェアより5桁高い4精度のColeskyベースの解法を新たに導入する。
論文 参考訳(メタデータ) (2024-09-03T08:50:42Z) - Free Bits: Latency Optimization of Mixed-Precision Quantized Neural
Networks on the Edge [17.277918711842457]
混合精度量子化は、モデルサイズ、レイテンシ、統計的精度の間のトレードオフを最適化する機会を提供する。
本稿では,与えられたネットワークに対する混合精度構成の探索空間をナビゲートするハイブリッド探索手法を提案する。
ハードウェアに依存しない差別化検索アルゴリズムと、特定のハードウェアターゲットに対して遅延最適化された混合精度構成を見つけるハードウェア対応最適化で構成されている。
論文 参考訳(メタデータ) (2023-07-06T09:57:48Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network
Quantization [32.770842274996774]
混合精度量子化は、ディープニューラルネットワークの性能と圧縮率の最適なトレードオフを実現できる可能性がある。
従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。
本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。
論文 参考訳(メタデータ) (2021-02-20T22:37:41Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - FracBits: Mixed Precision Quantization via Fractional Bit-Widths [29.72454879490227]
混合精度量子化は、複数のビット幅での算術演算をサポートするカスタマイズハードウェアで好適である。
本稿では,目標計算制約下での混合精度モデルに基づく学習に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-04T06:09:09Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。