論文の概要: Scaled Quantization for the Vision Transformer
- arxiv url: http://arxiv.org/abs/2303.13601v1
- Date: Thu, 23 Mar 2023 18:31:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 17:01:31.536872
- Title: Scaled Quantization for the Vision Transformer
- Title(参考訳): 視覚変換器のスケール化量子化
- Authors: Yangyang Chang and Gerald E. Sobelman
- Abstract要約: 少数のビットを使用した量子化は、ディープニューラルネットワークにおけるレイテンシとメモリ使用量の削減を約束している。
本稿では、中間浮動小数点演算を必要とせずに、視覚変換器ネットワークの完全整数量子化のためのロバストな手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Quantization using a small number of bits shows promise for reducing latency
and memory usage in deep neural networks. However, most quantization methods
cannot readily handle complicated functions such as exponential and square
root, and prior approaches involve complex training processes that must
interact with floating-point values. This paper proposes a robust method for
the full integer quantization of vision transformer networks without requiring
any intermediate floating-point computations. The quantization techniques can
be applied in various hardware or software implementations, including
processor/memory architectures and FPGAs.
- Abstract(参考訳): 少数のビットによる量子化は、ディープニューラルネットワークにおけるレイテンシとメモリ使用量の削減に役立つ。
しかし、ほとんどの量子化法は指数根や平方根のような複雑な関数を容易に扱うことはできず、以前の手法では浮動小数点値と相互作用しなければならない複雑な訓練プロセスが必要となる。
本稿では,中間浮動小数点演算を必要とせず,視覚トランスフォーマネットワークのフル整数量子化のためのロバストな手法を提案する。
量子化技術は、プロセッサ/メモリアーキテクチャやFPGAなど、様々なハードウェアやソフトウェアの実装に適用できる。
関連論文リスト
- AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - PIPE : Parallelized Inference Through Post-Training Quantization
Ensembling of Residual Expansions [23.1120983784623]
PIPEは、残差誤差展開とグループ間隔とアンサンブル近似を利用して、より良い並列化を実現する量子化法である。
すべてのベンチマークアプリケーション(ビジョンからNLPタスクまで)、アーキテクチャ(ConvNet、トランスフォーマー、ビット幅)において、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-27T13:29:34Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - A Practical Mixed Precision Algorithm for Post-Training Quantization [15.391257986051249]
混合精度量子化は、均一な量子化よりも優れた性能効率トレードオフを見つけるための有望な解である。
簡単な学習後混合精度アルゴリズムを提案する。
我々は,同質のビット幅等価値よりも精度と効率のトレードオフが良い混合精度ネットワークを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-02-10T17:47:54Z) - REx: Data-Free Residual Quantization Error Expansion [32.87131159997359]
ディープニューラルネットワーク(DNN)はコンピュータビジョンや自然言語処理においてユビキタスであるが、高い推論コストに悩まされている。
プライバシの権利に関する懸念が高まる中、私たちはデータフリーな方法に注力しています。
本稿では,残差展開とグループ間隔,アンサンブル近似を併用した並列化手法RExを提案する。
論文 参考訳(メタデータ) (2022-03-28T11:04:45Z) - ZippyPoint: Fast Interest Point Detection, Description, and Matching
through Mixed Precision Discretization [71.91942002659795]
我々は,ネットワーク量子化技術を用いて推論を高速化し,計算限定プラットフォームでの利用を可能にする。
バイナリディスクリプタを用いた効率的な量子化ネットワークZippyPointは,ネットワーク実行速度,ディスクリプタマッチング速度,3Dモデルサイズを改善する。
これらの改善は、ホモグラフィー推定、視覚的ローカライゼーション、マップフリーな視覚的再ローカライゼーションのタスクで評価されるように、小さなパフォーマンス劣化をもたらす。
論文 参考訳(メタデータ) (2022-03-07T18:59:03Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Optimal qubit assignment and routing via integer programming [0.22940141855172028]
論理量子回路を2ビット接続に制限のあるハードウェアにマッピングする問題を考察する。
我々はこの問題を2変数のネットワークフロー定式化を用いて整数線形プログラムとしてモデル化する。
本稿では,回路の忠実度,全深度,クロストークの尺度などのコスト関数について考察する。
論文 参考訳(メタデータ) (2021-06-11T15:02:26Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Integer Quantization for Deep Learning Inference: Principles and
Empirical Evaluation [4.638764944415326]
量子化技術は、ディープニューラルネットワークのサイズを小さくし、推論レイテンシとスループットを改善する。
本稿では,高スループット整数演算パイプラインを持つプロセッサによる高速化に寄与する量子化技術に着目する。
本研究では,全ネットワークにおいて,浮動小数点ベースラインの1%以内の精度を維持できる8ビット量子化のワークフローを提案する。
論文 参考訳(メタデータ) (2020-04-20T19:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。