論文の概要: Extremely Low Bit Transformer Quantization for On-Device Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2009.07453v2
- Date: Tue, 13 Oct 2020 05:23:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 22:42:27.693599
- Title: Extremely Low Bit Transformer Quantization for On-Device Neural Machine
Translation
- Title(参考訳): オンデバイスニューラルマシン翻訳のための極低ビット変圧器量子化
- Authors: Insoo Chung, Byeongwook Kim, Yoonjung Choi, Se Jung Kwon, Yongkweon
Jeon, Baeseong Park, Sangha Kim and Dongsoo Lee
- Abstract要約: 非常に少ないビット数でトランスフォーマー重みを表現するための混合精度量子化戦略を提案する。
我々のモデルはベースラインモデルよりも11.8$times$小さいモデルサイズで、-0.5BLEU未満である。
実行時のメモリフットプリントが8.3$times$削減され、3.5$times$スピードアップを実現しています。
- 参考スコア(独自算出の注目度): 9.770173256808844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of widely used Transformer architecture is challenging because
of heavy computation load and memory overhead during inference, especially when
the target device is limited in computational resources such as mobile or edge
devices. Quantization is an effective technique to address such challenges. Our
analysis shows that for a given number of quantization bits, each block of
Transformer contributes to translation quality and inference computations in
different manners. Moreover, even inside an embedding block, each word presents
vastly different contributions. Correspondingly, we propose a mixed precision
quantization strategy to represent Transformer weights by an extremely low
number of bits (e.g., under 3 bits). For example, for each word in an embedding
block, we assign different quantization bits based on statistical property. Our
quantized Transformer model achieves 11.8$\times$ smaller model size than the
baseline model, with less than -0.5 BLEU. We achieve 8.3$\times$ reduction in
run-time memory footprints and 3.5$\times$ speed up (Galaxy N10+) such that our
proposed compression strategy enables efficient implementation for on-device
NMT.
- Abstract(参考訳): 広く使われているTransformerアーキテクチャの展開は、特にモバイルやエッジデバイスなどの計算リソースに制限がある場合、推論中に大量の計算負荷とメモリオーバーヘッドのために困難である。
量子化はそのような課題に対処する効果的な手法である。
解析により、与えられた量子化ビット数に対して、Transformerの各ブロックは、異なる方法で翻訳品質と推論計算に寄与することが示された。
さらに、埋め込みブロック内でも、各単語は大きく異なるコントリビュートを示します。
これに対応して,トランスフォーマー重みを極めて少ないビット数(例えば3ビット以下)で表現するための混合精度量子化手法を提案する。
例えば、埋め込みブロックの各単語に対して、統計特性に基づいて異なる量子化ビットを割り当てる。
我々の量子化トランスフォーマーモデルは,-0.5BLEU未満のベースラインモデルよりも11.8$\times$小さいモデルサイズを達成する。
我々は,実機NMTの効率的な実装を実現するため,実行時のメモリフットプリントの8.3$\times$削減と3.5$\times$スピードアップ(Galaxy N10+)を実現している。
関連論文リスト
- Variable-size Symmetry-based Graph Fourier Transforms for image compression [65.7352685872625]
可変サイズのグラフフーリエ変換を符号化フレームワークに導入する。
提案アルゴリズムは,ノード間の特定の対称接続を追加することにより,グリッド上の対称グラフを生成する。
実験により、SBGFTは、明示的な多重変換選択に統合された一次変換よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-24T13:00:44Z) - BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。
textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文 参考訳(メタデータ) (2024-10-31T13:26:11Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - FrameQuant: Flexible Low-Bit Quantization for Transformers [25.569106620123346]
トランスフォーマーは多くのビジョンと自然言語処理タスクのための強力な基盤モデルのバックボーンです。
ポストトライニング量子化は、事前トレーニングされたモデルを変更し、それを8ビット以下に量子化する。
様々な実験を通して、トランスフォーマーモデルに対する(ほとんど)2ビット量子化は、大きな効率向上を約束することを示す。
論文 参考訳(メタデータ) (2024-03-10T04:01:49Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Scaled Quantization for the Vision Transformer [0.0]
少数のビットを使用した量子化は、ディープニューラルネットワークにおけるレイテンシとメモリ使用量の削減を約束している。
本稿では、中間浮動小数点演算を必要とせずに、視覚変換器ネットワークの完全整数量子化のためのロバストな手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T18:31:21Z) - Binarized Neural Machine Translation [43.488431560851204]
機械翻訳(BMT)に適用したトランスフォーマーの新しいバイナライズ手法を提案する。
1ビットの重みとアクティベーションを使用する場合の膨らませたドット積分散の問題を特定し,対処する。
WMTデータセットの実験では、1ビットのウェイトオンリートランスフォーマーはフロートと同じ品質を達成できるが、サイズは16倍小さい。
論文 参考訳(メタデータ) (2023-02-09T19:27:34Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Understanding and Overcoming the Challenges of Efficient Transformer
Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。
しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。
変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文 参考訳(メタデータ) (2021-09-27T10:57:18Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - Towards Fully 8-bit Integer Inference for the Transformer Model [39.22272841663168]
トランスフォーマーと呼ばれるトランスフォーマーアーキテクチャを原理的に修正した後、(ほぼ)完全8ビット整数推論アルゴリズムが導出可能であることを示す。
We experiment on WMT16 En->Ro, WMT14 En->De and En->Fr translation task as the WikiText-103 language modelling task shows that the fully 8-bit Transformer system achieves comparable performance with the floating point baseline but nearly 4x less memory footprint。
論文 参考訳(メタデータ) (2020-09-17T03:09:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。