論文の概要: Genetic Quantization-Aware Approximation for Non-Linear Operations in Transformers
- arxiv url: http://arxiv.org/abs/2403.19591v1
- Date: Thu, 28 Mar 2024 17:13:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 15:24:55.250120
- Title: Genetic Quantization-Aware Approximation for Non-Linear Operations in Transformers
- Title(参考訳): 変圧器の非線形動作に対する遺伝的量子化対応近似
- Authors: Pingcheng Dong, Yonghao Tan, Dong Zhang, Tianwei Ni, Xuejiao Liu, Yu Liu, Peng Luo, Luhong Liang, Shih-Yang Liu, Xijie Huang, Huaiyu Zhu, Yun Pan, Fengwei An, Kwang-Ting Cheng,
- Abstract要約: 非線型関数はトランスフォーマーとその軽量な変種で広く使われており、ハードウェアコストは大幅に過小評価されている。
従来の最先端の作業では、これらの操作を1次線形近似により最適化し、パラメータをルックアップテーブル(LUT)に格納する。
本稿では,量子化認識を用いたパラメータの自動決定が可能な遺伝的LUT近似アルゴリズムGQA-LUTを提案する。
- 参考スコア(独自算出の注目度): 26.62171477561166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-linear functions are prevalent in Transformers and their lightweight variants, incurring substantial and frequently underestimated hardware costs. Previous state-of-the-art works optimize these operations by piece-wise linear approximation and store the parameters in look-up tables (LUT), but most of them require unfriendly high-precision arithmetics such as FP/INT 32 and lack consideration of integer-only INT quantization. This paper proposed a genetic LUT-Approximation algorithm namely GQA-LUT that can automatically determine the parameters with quantization awareness. The results demonstrate that GQA-LUT achieves negligible degradation on the challenging semantic segmentation task for both vanilla and linear Transformer models. Besides, proposed GQA-LUT enables the employment of INT8-based LUT-Approximation that achieves an area savings of 81.3~81.7% and a power reduction of 79.3~80.2% compared to the high-precision FP/INT 32 alternatives. Code is available at https:// github.com/PingchengDong/GQA-LUT.
- Abstract(参考訳): 非線形関数はトランスフォーマーとその軽量な変種で広く使われており、ハードウェアコストは大幅に過小評価される。
従来の最先端の作業では、これらの操作を1次線形近似により最適化し、ルックアップテーブル(LUT)にパラメータを格納するが、その多くはFP/INT 32のような非フレンドリな高精度演算を必要とし、整数のみのINT量子化を考慮しない。
本稿では,量子化認識を用いたパラメータの自動決定が可能な遺伝的LUT近似アルゴリズムGQA-LUTを提案する。
その結果、GQA-LUTは、バニラモデルと線形トランスフォーマーモデルの両方において、難解なセマンティックセグメンテーションタスクにおいて、無視可能な劣化を達成できることを示した。
さらに、提案されたGQA-LUTは、精度の高いFP/INT 32の代替よりも81.3〜81.7%の省電力と79.3~80.2%の省電力を実現するINT8ベースのLUT近似を使用できる。
コードはhttps:// github.com/PingchengDong/GQA-LUT.comで入手できる。
関連論文リスト
- Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Toward Capturing Genetic Epistasis From Multivariate Genome-Wide Association Studies Using Mixed-Precision Kernel Ridge Regression [4.356528958652799]
英国バイオバンクの305K患者を対象としたGWAS(Genome-Wide Association Studies)の出力精度保存混合精度計算の性能を向上する。
低精度GPU演算によるデータ移動ゲインの強化によるタイル中心適応精度線形代数技術
ほぼ完全なAlpsシステム上で1.805の混合精度ExaOp/sで、最先端のCPU専用REGENIE GWASソフトウェアより5桁高い4精度のColeskyベースの解法を新たに導入する。
論文 参考訳(メタデータ) (2024-09-03T08:50:42Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - LATTE: Low-Precision Approximate Attention with Head-wise Trainable Threshold for Efficient Transformer [0.0]
我々は,高効率変圧器(LATTE)のための頭部訓練用閾値を用いた高精度近似注意法を提案する。
LATTEは、MHA(Multi-Head Attention)の計算量を削減するために、低精度ドット積を持つ頭部しきい値に基づくフィルタを用いる。
実験の結果, LATTE は NLP と CV の両方のタスクにスムーズに適応でき, 計算コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2024-04-11T07:23:19Z) - FP8-BERT: Post-Training Quantization for Transformer [20.51143486483669]
BERTのようなトランスフォーマーベースのモデルでは、大規模なメモリストレージと本番環境にデプロイする際の推論コストが要求される。
新しい数値フォーマットFP8が提案され、H100のような商用AIコンピューティングプラットフォームでサポートされている。
我々は,FP8の有効性を,精度を著しく損なうことなく,ポストトレーニング量子化を行う方法として実証的に検証した。
論文 参考訳(メタデータ) (2023-12-10T02:14:34Z) - Sparse Universal Transformer [64.78045820484299]
Universal Transformer (UT) はTransformerの変種であり、それらの層にまたがるパラメータを共有する。
本稿では,スパース・ミキチャー・オブ・エキスパート(SMoE)と新しいスティック・ブレーキング・ベースの動的停止機構を利用するスパース・ユニバーサル・トランスフォーマー(SUT)を提案する。
論文 参考訳(メタデータ) (2023-10-11T00:38:57Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - NN-LUT: Neural Approximation of Non-Linear Operations for Efficient
Transformer Inference [9.329021390526124]
GELU、Layer normalization、Softmaxといった非線形演算は、トランスフォーマーモデルのブロックの構築には不可欠だがコストがかかる。
本稿では,効率的なトランスフォーマー推論のためのハードウェアフレンドリな近似フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-03T23:06:57Z) - Statistically Meaningful Approximation: a Case Study on Approximating
Turing Machines with Transformers [50.85524803885483]
本研究は,統計的学習性を示すために近似ネットワークを必要とする統計有意(SM)近似の形式的定義を提案する。
回路とチューリングマシンの2つの機能クラスに対するSM近似について検討する。
論文 参考訳(メタデータ) (2021-07-28T04:28:55Z) - Implicit differentiation of Lasso-type models for hyperparameter
optimization [82.73138686390514]
ラッソ型問題に適した行列逆転のない効率的な暗黙微分アルゴリズムを提案する。
提案手法は,解の空間性を利用して高次元データにスケールする。
論文 参考訳(メタデータ) (2020-02-20T18:43:42Z) - Learning Accurate Integer Transformer Machine-Translation Models [0.05184427980355132]
本論文では、8ビット整数(INT8)ハードウェア行列乗算器を用いて推論を行うための正確なトランスフォーマー機械翻訳モデルの訓練方法について述べる。
提案手法は,既存のFP32モデルからの行列乗算テンソルをすべてINT8テンソルに変換する。
論文 参考訳(メタデータ) (2020-01-03T18:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。