Fugu-MT 論文翻訳(概要): Term Revealing: Furthering Quantization at Run Time on Quantized DNNs

論文の概要: Term Revealing: Furthering Quantization at Run Time on Quantized DNNs

arxiv url: http://arxiv.org/abs/2007.06389v2
Date: Sun, 26 Jul 2020 19:24:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-10 23:24:24.442528
Title: Term Revealing: Furthering Quantization at Run Time on Quantized DNNs
Title（参考訳）: 量子化DNNにおける実行時の量子化の促進
Authors: H. T. Kung, Bradley McDanel, Sai Qian Zhang
Abstract要約: 本稿では,従来の量子化手法で既に定量化されているディープニューラルネットワーク(DNN)の性能向上のために,実行時の量子化を促進させる新しい手法である Term Revealing (TR) を提案する。 TRは値のバイナリ表現において2項のパワーで動作する。本稿では、少数の制御ビットを用いて従来の量子化とTR対応量子化を無視可能な遅延で切り替えるFPGAの実装を示す。
参考スコア（独自算出の注目度）: 9.240133036531402
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a novel technique, called Term Revealing (TR), for furthering quantization at run time for improved performance of Deep Neural Networks (DNNs) already quantized with conventional quantization methods. TR operates on power-of-two terms in binary expressions of values. In computing a dot-product computation, TR dynamically selects a fixed number of largest terms to use from the values of the two vectors in the dot product. By exploiting normal-like weight and data distributions typically present in DNNs, TR has a minimal impact on DNN model performance (i.e., accuracy or perplexity). We use TR to facilitate tightly synchronized processor arrays, such as systolic arrays, for efficient parallel processing. We show an FPGA implementation that can use a small number of control bits to switch between conventional quantization and TR-enabled quantization with a negligible delay. To enhance TR efficiency further, we use a signed digit representation (SDR), as opposed to classic binary encoding with only nonnegative power-of-two terms. To perform conversion from binary to SDR, we develop an efficient encoding method called HESE (Hybrid Encoding for Signed Expressions) that can be performed in one pass looking at only two bits at a time. We evaluate TR with HESE encoded values on an MLP for MNIST, multiple CNNs for ImageNet, and an LSTM for Wikitext-2, and show significant reductions in inference computations (between 3-10x) compared to conventional quantization for the same level of model performance.
Abstract（参考訳）: 本稿では,従来の量子化手法で既に定量化されているディープニューラルネットワーク(DNN)の性能向上のために,実行時の量子化を促進させる新しい手法である Term Revealing (TR) を提案する。 TRは値のバイナリ表現において2項のパワーで動作する。ドット積計算において、TRはドット積の2つのベクトルの値から使用する最大項の固定数を動的に選択する。一般的なDNNの重みやデータ分布を利用して、TRはDNNモデルの性能(すなわち正確性や複雑度)に最小限の影響を与える。我々は TR を用いて, 高速並列処理のために, サイストリックアレイなどのプロセッサアレイの緊密な同期を容易にする。本稿では、少数の制御ビットを用いて従来の量子化とTR対応量子化を無視可能な遅延で切り替えるFPGAの実装を示す。 TR効率をさらに高めるために,符号付き桁表現(SDR)を用いる。二進法からSDRへの変換を実現するため, HESE (Hybrid Encoding for Signed Expressions) と呼ばれる効率的な符号化手法を開発した。 MNIST の MLP と ImageNet の CNN と Wikitext-2 の LSTM に HESE エンコードされた値を用いて TR を評価し, モデル性能の同じレベルの従来の量子化と比較して, 推論計算(3～10倍) の大幅な削減を示した。

関連論文リスト

Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文参考訳（メタデータ） (2024-10-08T11:07:55Z)
Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。 Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-22T19:45:01Z)
TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文参考訳（メタデータ） (2024-04-15T06:01:48Z)
BiPer: Binary Neural Networks using a Periodic Function [17.461853355858022]
量子ニューラルネットワークは、重みとアクティベーションの両方に精度の低下した表現を用いる。バイナリニューラルネットワーク(BNN)は極端量子化のケースであり、わずか1ビットで値を表す。現在のBNNのアプローチとは対照的に,バイナライゼーションにおいて,バイナリ周期関数 (BiPer) を用いる方法を提案する。
論文参考訳（メタデータ） (2024-04-01T17:52:17Z)
Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文参考訳（メタデータ） (2023-03-25T13:53:02Z)
ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural Network Quantization [31.494669469303954]
ハードウェアオーバーヘッドの少ない低ビット量子化を実現するため,ANTと呼ばれる固定長適応型数値型を提案する。我々の設計は、最先端の量子化加速器よりも2.8$times$スピードアップと2.5$times$エネルギー効率の改善をもたらす。
論文参考訳（メタデータ） (2022-08-30T14:12:49Z)
Quantized Neural Networks via {-1, +1} Encoding Decomposition and Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文参考訳（メタデータ） (2021-06-18T03:11:15Z)
FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。そこで本研究では、3次内積の計算複雑性を2。性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文参考訳（メタデータ） (2020-08-12T04:26:18Z)
Compressing deep neural networks on FPGAs to binary and ternary precision with HLS4ML [13.325670094073383]
本稿では, hls4mlライブラリにおける2次ニューラルネットワークと3次ニューラルネットワークの実装について述べる。モデル精度と資源消費のトレードオフについて論じる。二分法と三分法の実装は、FPGAリソースを劇的に減らしながら高い精度の実装と類似した性能を持つ。
論文参考訳（メタデータ） (2020-03-11T10:46:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。