論文の概要: Multi-objective Recurrent Neural Networks Optimization for the Edge -- a
Quantization-based Approach
- arxiv url: http://arxiv.org/abs/2108.01192v1
- Date: Mon, 2 Aug 2021 22:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 21:05:04.383556
- Title: Multi-objective Recurrent Neural Networks Optimization for the Edge -- a
Quantization-based Approach
- Title(参考訳): 量子化に基づくエッジの多目的リカレントニューラルネットワーク最適化
- Authors: Nesma M. Rezk, Tomas Nordstr\"om, Dimitrios Stathis, Zain Ul-Abdin,
Eren Erdal Aksoy, Ahmed Hemani
- Abstract要約: 本稿では,Multi-Objective Hardware-Aware Quantization (MOHAQ)法を紹介する。
本研究では,検索空間内でのみ選択された解を学習し,ビーコンとして利用し,他の解に対する再学習の効果を知るための「ビーコンベース検索」という検索手法を提案する。
- 参考スコア(独自算出の注目度): 2.1987431057890467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The compression of deep learning models is of fundamental importance in
deploying such models to edge devices. Incorporating hardware model and
application constraints during compression maximizes the benefits but makes it
specifically designed for one case. Therefore, the compression needs to be
automated. Searching for the optimal compression method parameters is
considered an optimization problem. This article introduces a Multi-Objective
Hardware-Aware Quantization (MOHAQ) method, which considers both hardware
efficiency and inference error as objectives for mixed-precision quantization.
The proposed method makes the evaluation of candidate solutions in a large
search space feasible by relying on two steps. First, post-training
quantization is applied for fast solution evaluation. Second, we propose a
search technique named "beacon-based search" to retrain selected solutions only
in the search space and use them as beacons to know the effect of retraining on
other solutions. To evaluate the optimization potential, we chose a speech
recognition model using the TIMIT dataset. The model is based on Simple
Recurrent Unit (SRU) due to its considerable speedup over other recurrent
units. We applied our method to run on two platforms: SiLago and Bitfusion.
Experimental evaluations showed that SRU can be compressed up to 8x by
post-training quantization without any significant increase in the error and up
to 12x with only a 1.5 percentage point increase in error. On SiLago, the
inference-only search found solutions that achieve 80\% and 64\% of the maximum
possible speedup and energy saving, respectively, with a 0.5 percentage point
increase in the error. On Bitfusion, with a constraint of a small SRAM size,
beacon-based search reduced the error gain of inference-only search by 4
percentage points and increased the possible reached speedup to be 47x compared
to the Bitfusion baseline.
- Abstract(参考訳): ディープラーニングモデルの圧縮は、このようなモデルをエッジデバイスにデプロイする上で、極めて重要である。
圧縮中にハードウェアモデルとアプリケーション制約を組み込むことは利点を最大化するが、特定のケースのために特別に設計する。
したがって圧縮を自動化する必要がある。
最適圧縮法パラメータの探索は最適化問題と考えられる。
本稿では,ハードウェア効率と推論誤差を混合精度量子化の目的とする多目的ハードウェアアウェア量子化(mohaq)手法を提案する。
提案手法は,2つのステップに依存して,大規模検索空間における候補解の評価を可能にする。
まず, 学習後の量子化を高速解法評価に適用する。
第二に,検索空間内でのみ選択された解を学習し,ビーコンとして利用し,他の解に対する再学習の効果を知るための検索手法「ビーコン検索」を提案する。
最適化ポテンシャルを評価するために,timitデータセットを用いた音声認識モデルを選択した。
このモデルは、他のリカレントユニットよりもかなりスピードアップするため、Simple Recurrent Unit (SRU) に基づいている。
提案手法をSiLagoとBitfusionの2つのプラットフォーム上での動作に適用した。
実験評価の結果, sru は誤差の大幅な増加を伴わず, 最大 12 倍まで圧縮でき, 誤差は 1.5 % の誤差増加に留まらず, 最大 8 倍まで圧縮できることがわかった。
シアゴでは、推論のみの探索により、最大速度アップと省エネルギーのそれぞれ80\%と64\%を達成する解を見つけ、誤差は0.5%増加した。
ビットフュージョンでは、sramサイズが小さい制約により、ビーコンベースの検索は推論のみ検索のエラーゲインを4ポイント減らし、ビットフュージョンのベースラインと比較して最大速度が47倍に向上した。
関連論文リスト
- Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - Improved Sparse Ising Optimization [0.0]
本報告では,最大2万変数の長期ベンチマーク問題において,性能が著しく向上したことを示す新しいデータを示す。
速度と精度の組み合わせを先導するのとは対照的に、概念実証の実装は2-4桁の精度で目標に到達した。
このデータは、スパースIsingパフォーマンスフロンティアを、アルゴリズムポートフォリオ、AIツールキット、意思決定システムを強化するために推進するエキサイティングな可能性を示している。
論文 参考訳(メタデータ) (2023-11-15T17:59:06Z) - FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search [50.07268323597872]
本稿では,整数浮動小数点モデルと低精度浮動小数点モデルの両方において再学習を不要とする,最初のワンショット混合量子化探索を提案する。
整数モデルでは、ImageNet上のResNet-18の精度を1.31%、ResNet-50の精度を0.90%向上させる。
従来のFP8モデルと比較して,新しい混合精度浮動小数点探索を探索し,最大0.98%改善した。
論文 参考訳(メタデータ) (2023-08-07T04:17:19Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - SPDY: Accurate Pruning with Speedup Guarantees [29.284147465251685]
SPDYは、所望の推論スピードアップを達成するために、レイヤーワイドのスパシティターゲットを自動的に決定する新しい圧縮手法である。
また,SPDYは,ワンショットおよび段階的なプルーニングシナリオにおいて,既存の戦略と比較して高い精度を回復しつつ,スピードアップを保証していることを示す。
また、非常に少ないデータでプルーニングを行うという最近提案されたタスクにアプローチを拡張し、GPUをサポートする2:4のスパーシティパターンにプルーニングする際に最もよく知られた精度回復を実現する。
論文 参考訳(メタデータ) (2022-01-31T10:14:31Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Effective and Fast: A Novel Sequential Single Path Search for
Mixed-Precision Quantization [45.22093693422085]
混合精度量子化モデルは、異なる層の感度に応じて異なる量子化ビット精度にマッチし、優れた性能を達成できます。
いくつかの制約に従ってディープニューラルネットワークにおける各層の量子化ビット精度を迅速に決定することは難しい問題である。
混合精度量子化のための新規なシーケンシャルシングルパス探索(SSPS)法を提案する。
論文 参考訳(メタデータ) (2021-03-04T09:15:08Z) - Single-path Bit Sharing for Automatic Loss-aware Model Compression [126.98903867768732]
シングルパスビット共有(SBS)は、計算コストを大幅に削減し、有望な性能を達成する。
SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍ビット演算(BOP)を実現する。
論文 参考訳(メタデータ) (2021-01-13T08:28:21Z) - ISTA-NAS: Efficient and Consistent Neural Architecture Search by Sparse
Coding [86.40042104698792]
スパース符号問題としてニューラルアーキテクチャ探索を定式化する。
実験では、CIFAR-10の2段階法では、検索にわずか0.05GPUしか必要としない。
本手法は,CIFAR-10とImageNetの両方において,評価時間のみのコストで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-13T04:34:24Z) - Automatic heterogeneous quantization of deep neural networks for
low-latency inference on the edge for particle detectors [5.609098985493794]
我々は,チップ上での最小エネルギー,高精度,ナノ秒の推論,完全自動展開のための,深層ニューラルネットワークモデルの最適ヘテロジニゼーションバージョンを設計する手法を提案する。
これはCERN大型ハドロン衝突型加速器における陽子-陽子衝突におけるイベント選択の手順に不可欠であり、リソースは厳密に制限され、$mathcal O(1)mu$sのレイテンシが要求される。
論文 参考訳(メタデータ) (2020-06-15T15:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。