論文の概要: Attention based on-device streaming speech recognition with large speech
corpus
- arxiv url: http://arxiv.org/abs/2001.00577v1
- Date: Thu, 2 Jan 2020 04:24:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 04:48:31.836897
- Title: Attention based on-device streaming speech recognition with large speech
corpus
- Title(参考訳): 大規模コーパスを用いたストリーミング音声認識に基づく注意
- Authors: Kwangyoun Kim, Kyungmin Lee, Dhananjaya Gowda, Junmo Park, Sungsoo
Kim, Sichen Jin, Young-Yoon Lee, Jinsu Yeo, Daehyun Kim, Seokyeong Jung,
Jungin Lee, Myoungji Han, Chanwoo Kim
- Abstract要約: 大規模(>10K時間)コーパスで学習したモノトニックチャンクワイド・アテンション(MoChA)モデルに基づいて,新しいオンデバイス自動音声認識(ASR)システムを提案する。
一般ドメインにおける単語認識率の約90%は、主にコネクショニスト時間分類器(CTC)とクロスエントロピー(CE)の併用訓練を用いて達成した。
オンデマンド適応では,MoChAモデルを統計的n-gramモデルに融合し,一般ドメインを含む対象ドメインの平均単語誤り率(WER)を36%向上させることができた。
- 参考スコア(独自算出の注目度): 16.702653972113023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a new on-device automatic speech recognition (ASR)
system based on monotonic chunk-wise attention (MoChA) models trained with
large (> 10K hours) corpus. We attained around 90% of a word recognition rate
for general domain mainly by using joint training of connectionist temporal
classifier (CTC) and cross entropy (CE) losses, minimum word error rate (MWER)
training, layer-wise pre-training and data augmentation methods. In addition,
we compressed our models by more than 3.4 times smaller using an iterative
hyper low-rank approximation (LRA) method while minimizing the degradation in
recognition accuracy. The memory footprint was further reduced with 8-bit
quantization to bring down the final model size to lower than 39 MB. For
on-demand adaptation, we fused the MoChA models with statistical n-gram models,
and we could achieve a relatively 36% improvement on average in word error rate
(WER) for target domains including the general domain.
- Abstract(参考訳): 本稿では,大規模(>10K時間)コーパスで学習したモノトニックチャンクワイド・アテンション(MoChA)モデルに基づく,オンデバイス自動音声認識(ASR)システムを提案する。
我々は,接続型時間分類器(CTC)とクロスエントロピー(CE)の併用トレーニング,最小単語誤り率(MWER)トレーニング,レイヤワイド事前学習,データ拡張手法を用いて,一般領域における単語認識率の約90%を達成した。
さらに,認識精度の低下を最小限に抑えつつ,反復的超低ランク近似(lra)法を用いてモデルを3.4倍以上小さく圧縮した。
8ビット量子化によりメモリフットプリントはさらに小さくなり、最終的なモデルサイズは39MB以下になった。
オンデマンド適応では,MoChAモデルを統計的n-gramモデルに融合し,一般ドメインを含む対象ドメインの平均単語誤り率(WER)を36%向上させることができた。
関連論文リスト
- Optimization of DNN-based speaker verification model through efficient quantization technique [15.250677730668466]
ディープモデルの量子化は、計算コストとメモリコストの両方を削減する手段を提供する。
本研究では,話者検証モデルの定量化のための最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-12T05:03:10Z) - Neural Language Model Pruning for Automatic Speech Recognition [4.10609794373612]
自動音声認識のためのトランスフォーマーベースニューラルネットワークモデルに適用したモデルプルーニング法について検討した。
本研究では,プルーニングフレーム作業の3つの側面,すなわちクレーター,メソッド,スケジューラを探索し,それらの寄与を精度と推論速度の観点から分析する。
論文 参考訳(メタデータ) (2023-10-05T10:01:32Z) - Efficient Speech Representation Learning with Low-Bit Quantization [32.75829498841329]
音声表現学習モデルにおける最近の量子化手法を適用し,検討する。
1ビットへのアグレッシブ量子化により、86.32%のストレージ削減(4.42 -> 25.23)、88%のランタイム削減(1.00 -> 0.12)とワードエラー率(7.06 -> 15.96)を達成した。
モデル圧縮も目的とするDistillHuBERTと比較すると、2ビット構成ではストレージがわずかに小さく(35.84対46.98)、ワードエラー率(12.68対13.37)、ランタイム推定(0.15対0.73)が向上した。
論文 参考訳(メタデータ) (2022-12-14T06:09:08Z) - Pushing the Limits of Asynchronous Graph-based Object Detection with
Event Cameras [62.70541164894224]
低計算を維持しながら、そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択をいくつか導入する。
我々の手法は、密度の高いグラフニューラルネットワークよりも3.7倍高速に動作し、前方通過はわずか8.4msである。
論文 参考訳(メタデータ) (2022-11-22T15:14:20Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - An Efficient Deep Learning Model for Automatic Modulation Recognition
Based on Parameter Estimation and Transformation [3.3941243094128035]
本稿では,位相パラメータ推定と変換に基づく効率的なDL-AMRモデルを提案する。
我々のモデルは、類似の認識精度を持つベンチマークモデルよりも、トレーニング時間とテスト時間で競争力がある。
論文 参考訳(メタデータ) (2021-10-11T03:28:28Z) - DEEPF0: End-To-End Fundamental Frequency Estimation for Music and Speech
Signals [11.939409227407769]
DeepF0と呼ばれる新しいピッチ推定手法を提案する。
利用可能な注釈付きデータを活用して、データ駆動方式で生のオーディオから直接学習する。
論文 参考訳(メタデータ) (2021-02-11T23:11:22Z) - Adaptive Quantization of Model Updates for Communication-Efficient
Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。
グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。
通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T19:14:21Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z) - Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文 参考訳(メタデータ) (2020-09-02T01:07:29Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。