論文の概要: Term Revealing: Furthering Quantization at Run Time on Quantized DNNs
- arxiv url: http://arxiv.org/abs/2007.06389v2
- Date: Sun, 26 Jul 2020 19:24:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 23:24:24.442528
- Title: Term Revealing: Furthering Quantization at Run Time on Quantized DNNs
- Title(参考訳): 量子化DNNにおける実行時の量子化の促進
- Authors: H. T. Kung, Bradley McDanel, Sai Qian Zhang
- Abstract要約: 本稿では,従来の量子化手法で既に定量化されているディープニューラルネットワーク(DNN)の性能向上のために,実行時の量子化を促進させる新しい手法である Term Revealing (TR) を提案する。
TRは値のバイナリ表現において2項のパワーで動作する。
本稿では、少数の制御ビットを用いて従来の量子化とTR対応量子化を無視可能な遅延で切り替えるFPGAの実装を示す。
- 参考スコア(独自算出の注目度): 9.240133036531402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel technique, called Term Revealing (TR), for furthering
quantization at run time for improved performance of Deep Neural Networks
(DNNs) already quantized with conventional quantization methods. TR operates on
power-of-two terms in binary expressions of values. In computing a dot-product
computation, TR dynamically selects a fixed number of largest terms to use from
the values of the two vectors in the dot product. By exploiting normal-like
weight and data distributions typically present in DNNs, TR has a minimal
impact on DNN model performance (i.e., accuracy or perplexity). We use TR to
facilitate tightly synchronized processor arrays, such as systolic arrays, for
efficient parallel processing. We show an FPGA implementation that can use a
small number of control bits to switch between conventional quantization and
TR-enabled quantization with a negligible delay. To enhance TR efficiency
further, we use a signed digit representation (SDR), as opposed to classic
binary encoding with only nonnegative power-of-two terms. To perform conversion
from binary to SDR, we develop an efficient encoding method called HESE (Hybrid
Encoding for Signed Expressions) that can be performed in one pass looking at
only two bits at a time. We evaluate TR with HESE encoded values on an MLP for
MNIST, multiple CNNs for ImageNet, and an LSTM for Wikitext-2, and show
significant reductions in inference computations (between 3-10x) compared to
conventional quantization for the same level of model performance.
- Abstract(参考訳): 本稿では,従来の量子化手法で既に定量化されているディープニューラルネットワーク(DNN)の性能向上のために,実行時の量子化を促進させる新しい手法である Term Revealing (TR) を提案する。
TRは値のバイナリ表現において2項のパワーで動作する。
ドット積計算において、TRはドット積の2つのベクトルの値から使用する最大項の固定数を動的に選択する。
一般的なDNNの重みやデータ分布を利用して、TRはDNNモデルの性能(すなわち正確性や複雑度)に最小限の影響を与える。
我々は TR を用いて, 高速並列処理のために, サイストリックアレイなどのプロセッサアレイの緊密な同期を容易にする。
本稿では、少数の制御ビットを用いて従来の量子化とTR対応量子化を無視可能な遅延で切り替えるFPGAの実装を示す。
TR効率をさらに高めるために,符号付き桁表現(SDR)を用いる。
二進法からSDRへの変換を実現するため, HESE (Hybrid Encoding for Signed Expressions) と呼ばれる効率的な符号化手法を開発した。
MNIST の MLP と ImageNet の CNN と Wikitext-2 の LSTM に HESE エンコードされた値を用いて TR を評価し, モデル性能の同じレベルの従来の量子化と比較して, 推論計算(3~10倍) の大幅な削減を示した。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - BiPer: Binary Neural Networks using a Periodic Function [17.461853355858022]
量子ニューラルネットワークは、重みとアクティベーションの両方に精度の低下した表現を用いる。
バイナリニューラルネットワーク(BNN)は極端量子化のケースであり、わずか1ビットで値を表す。
現在のBNNのアプローチとは対照的に,バイナライゼーションにおいて,バイナリ周期関数 (BiPer) を用いる方法を提案する。
論文 参考訳(メタデータ) (2024-04-01T17:52:17Z) - Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。
我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。
実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文 参考訳(メタデータ) (2023-03-25T13:53:02Z) - ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural
Network Quantization [31.494669469303954]
ハードウェアオーバーヘッドの少ない低ビット量子化を実現するため,ANTと呼ばれる固定長適応型数値型を提案する。
我々の設計は、最先端の量子化加速器よりも2.8$times$スピードアップと2.5$times$エネルギー効率の改善をもたらす。
論文 参考訳(メタデータ) (2022-08-30T14:12:49Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - Compressing deep neural networks on FPGAs to binary and ternary
precision with HLS4ML [13.325670094073383]
本稿では, hls4mlライブラリにおける2次ニューラルネットワークと3次ニューラルネットワークの実装について述べる。
モデル精度と資源消費のトレードオフについて論じる。
二分法と三分法の実装は、FPGAリソースを劇的に減らしながら高い精度の実装と類似した性能を持つ。
論文 参考訳(メタデータ) (2020-03-11T10:46:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。