論文の概要: INT8 Winograd Acceleration for Conv1D Equipped ASR Models Deployed on
Mobile Devices
- arxiv url: http://arxiv.org/abs/2010.14841v1
- Date: Wed, 28 Oct 2020 09:25:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 06:05:58.935011
- Title: INT8 Winograd Acceleration for Conv1D Equipped ASR Models Deployed on
Mobile Devices
- Title(参考訳): INT8 モバイルデバイス上に展開した Conv1D 付き ASR モデルのWinograd 高速化
- Authors: Yiwu Yao, Yuchao Li, Chengyu Wang, Tianhang Yu, Houjiang Chen,
Xiaotang Jiang, Jun Yang, Jun Huang, Wei Lin, Hui Shu, Chengfei Lv
- Abstract要約: 自動音声認識(ASR)モデルの集中的な計算は、モバイルデバイスへの展開を妨げる。
ASRモデルのモバイルデバイス上で効率的な推論高速化を実現するために,量子化と高速畳み込みを組み合わせた新しい量子化Winograd最適化パイプラインを提案する。
- 参考スコア(独自算出の注目度): 16.13681155725083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The intensive computation of Automatic Speech Recognition (ASR) models
obstructs them from being deployed on mobile devices. In this paper, we present
a novel quantized Winograd optimization pipeline, which combines the
quantization and fast convolution to achieve efficient inference acceleration
on mobile devices for ASR models. To avoid the information loss due to the
combination of quantization and Winograd convolution, a Range-Scaled
Quantization (RSQ) training method is proposed to expand the quantized
numerical range and to distill knowledge from high-precision values. Moreover,
an improved Conv1D equipped DFSMN (ConvDFSMN) model is designed for mobile
deployment. We conduct extensive experiments on both ConvDFSMN and Wav2letter
models. Results demonstrate the models can be effectively optimized with the
proposed pipeline. Especially, Wav2letter achieves 1.48* speedup with an
approximate 0.07% WER decrease on ARMv7-based mobile devices.
- Abstract(参考訳): 自動音声認識(ASR)モデルの集中的な計算は、モバイルデバイスへの展開を妨げる。
本稿では,ASRモデルのモバイルデバイス上での効率的な推論高速化を実現するために,量子化と高速畳み込みを組み合わせた新しい量子化Winograd最適化パイプラインを提案する。
量子化とウィノグラード畳み込みの組み合わせによる情報損失を避けるために, 量子化範囲を拡大し, 高精度値から知識を蒸留するために, range-scaled quantization (rsq) トレーニング法が提案されている。
さらに、モバイルデプロイメント用に改良されたConv1D搭載DFSMN(ConvDFSMN)モデルも設計されている。
convdfsmnモデルとwav2レターモデルの両方について広範な実験を行った。
結果は、提案したパイプラインでモデルを効果的に最適化できることを示す。
特にwav2letterは1.48*のスピードアップを達成し、armv7ベースのモバイルデバイスではおよそ0.07%減少している。
関連論文リスト
- A light-weight and efficient punctuation and word casing prediction model for on-device streaming ASR [0.31077024712075796]
自動音声認識(ASR)における句読解と単語ケーシング予測の必要性
本稿では,リアルタイムに句読解と単語ケーシングを共同で予測する軽量で効率的なモデルを提案する。
論文 参考訳(メタデータ) (2024-07-18T04:01:12Z) - Task-Agnostic Structured Pruning of Speech Representation Models [18.555223754089905]
性能劣化を補うための微粒なアテンションヘッドプルーニング法を提案する。
SUPERBベンチマーク実験により,複数のタスクで高密度モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2023-06-02T09:11:06Z) - Operator Splitting Value Iteration [27.505231431328255]
政策評価と制御の両問題に対してOS-VI(Operator Splitting Value Iteration)を導入する。
OS-VIは、モデルが十分に正確であれば、はるかに高速な収束率を達成する。
従来のDynaアーキテクチャとは異なり、OS-Dynaはモデル近似誤差の存在下でも正しい値関数に収束する。
論文 参考訳(メタデータ) (2022-11-25T07:34:26Z) - ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural
Network Quantization [31.494669469303954]
ハードウェアオーバーヘッドの少ない低ビット量子化を実現するため,ANTと呼ばれる固定長適応型数値型を提案する。
我々の設計は、最先端の量子化加速器よりも2.8$times$スピードアップと2.5$times$エネルギー効率の改善をもたらす。
論文 参考訳(メタデータ) (2022-08-30T14:12:49Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - On-demand compute reduction with stochastic wav2vec 2.0 [63.22845151306881]
本稿では、wav2vec 2.0(W2V2)モデルに対するオンデマンドの計算量削減のための圧縮を提案する。
960hのLibrispeechデータセットで事前学習し、10hの転写データに微調整を行った結果,同じモデルを用いて単語誤り率(WER)と推測時間とのスムーズなトレードオフが得られた。
論文 参考訳(メタデータ) (2022-04-25T19:25:46Z) - VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-17T20:27:52Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Edge Federated Learning Via Unit-Modulus Over-The-Air Computation
(Extended Version) [64.76619508293966]
本稿では,効率の良いエッジフェデレーション学習を実現するために,UM-AirCompフレームワークを提案する。
ローカルモデルパラメータを同時にアップロードし、アナログビームフォーミングを通じてグローバルモデルパラメータを更新する。
車両間自動運転シミュレーションプラットフォームにおけるUM-AirCompの実装を実演する。
論文 参考訳(メタデータ) (2021-01-28T15:10:22Z) - Fast-Convergent Federated Learning [82.32029953209542]
フェデレーション学習は、モバイルデバイスの現代的なネットワークを介して機械学習タスクを分散するための、有望なソリューションである。
本稿では,FOLBと呼ばれる高速収束型フェデレーション学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-26T14:37:51Z) - Searching for Winograd-aware Quantized Networks [12.351250944079949]
我々は、ウィノグラード変換によって導入された数値的不正確さを明らかにする畳み込み層のウィノグラード対応の定式化を提案する。
また, 数値誤差の原因にも対処し, 変換行列の形状を緩和し, CIFAR-10の分類精度を最大10%向上させる手法を提案する。
論文 参考訳(メタデータ) (2020-02-25T07:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。