論文の概要: Effects of Number of Filters of Convolutional Layers on Speech
Recognition Model Accuracy
- arxiv url: http://arxiv.org/abs/2102.02326v1
- Date: Wed, 3 Feb 2021 23:04:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 16:22:20.168033
- Title: Effects of Number of Filters of Convolutional Layers on Speech
Recognition Model Accuracy
- Title(参考訳): 畳み込み層のフィルタ数が音声認識モデル精度に及ぼす影響
- Authors: James Mou, Jun Li
- Abstract要約: 本稿では,ASRモデルに対するCNN+RNNのモデル予測精度に及ぼす畳み込み層フィルタ数の影響について検討する。
実験結果から,フィルタのCNN数が一定の閾値を超えた場合のみ,CNN+RNN音声認識モデルの性能を向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 6.2698513174194215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the progress of the End-to-End approach [1], this paper
systematically studies the effects of Number of Filters of convolutional layers
on the model prediction accuracy of CNN+RNN (Convolutional Neural Networks
adding to Recurrent Neural Networks) for ASR Models (Automatic Speech
Recognition). Experimental results show that only when the CNN Number of
Filters exceeds a certain threshold value is adding CNN to RNN able to improve
the performance of the CNN+RNN speech recognition model, otherwise some
parameter ranges of CNN can render it useless to add the CNN to the RNN model.
Our results show a strong dependency of word accuracy on the Number of Filters
of convolutional layers. Based on the experimental results, the paper suggests
a possible hypothesis of Sound-2-Vector Embedding (Convolutional Embedding) to
explain the above observations.
Based on this Embedding hypothesis and the optimization of parameters, the
paper develops an End-to-End speech recognition system which has a high word
accuracy but also has a light model-weight. The developed LVCSR (Large
Vocabulary Continuous Speech Recognition) model has achieved quite a high word
accuracy of 90.2% only by its Acoustic Model alone, without any assistance from
intermediate phonetic representation and any Language Model. Its acoustic model
contains only 4.4 million weight parameters, compared to the 35~68 million
acoustic-model weight parameters in DeepSpeech2 [2] (one of the top
state-of-the-art LVCSR models) which can achieve a word accuracy of 91.5%. The
light-weighted model is good for improving the transcribing computing
efficiency and also useful for mobile devices, Driverless Vehicles, etc. Our
model weight is reduced to ~10% the size of DeepSpeech2, but our model accuracy
remains close to that of DeepSpeech2. If combined with a Language Model, our
LVCSR system is able to achieve 91.5% word accuracy.
- Abstract(参考訳): 本稿では,asrモデル(自動音声認識)のためのcnn+rnn(convolutional neural networks adding to recurrent neural networks)のモデル予測精度に及ぼす畳み込み層のフィルタ数の影響を体系的に検討する。
実験結果から,フィルタのCNN数が一定のしきい値を超えた場合のみ,CNN+RNN音声認識モデルの性能向上が可能なCNNをRNNに追加した場合,そうでなければ,CNNのパラメータ範囲によっては,CNNをRNNモデルに追加することができないことがわかった。
その結果,畳み込み層のフィルタ数に対する単語精度の強い依存性が示された。
実験結果に基づいて, 上記の観測を説明するために, 音場2-ベクトル埋め込み(畳み込み)の仮説を提案した。
本稿では,この埋め込み仮説とパラメータの最適化に基づき,単語の精度が高く,軽量なモデル重みを持つエンドツーエンド音声認識システムを開発した。
開発したLVCSR(Large Vocabulary Continuous Speech Recognition)モデルは、中音韻表現と言語モデルの援助なしに、音響モデルだけで90.2%の非常に高い単語精度を達成しました。
deepspeech2 [2](最先端のlvcsrモデルの1つ)の音響モデル重量パラメータ35~6800万に対して、その音響モデルはわずか440万の重量パラメータしか含んでおらず、91.5%の単語精度を達成している。
軽量モデルは、トランスクリプティングコンピューティングの効率を改善するのに適しており、モバイルデバイスや無人運転車などにも役立ちます。
モデル重量はDeepSpeech2の約10%に削減されるが、モデルの精度はDeepSpeech2のそれに近いままである。
言語モデルと組み合わせると、当社のLVCSRシステムは91.5%の単語精度を達成できます。
関連論文リスト
- Evaluating raw waveforms with deep learning frameworks for speech
emotion recognition [0.0]
特徴抽出段階なしで生のオーディオファイルをディープニューラルネットワークに直接供給するモデルを表現する。
EMO-DB、RAVDESS、TESS、CREMA、SAVEE、TESS+RAVDESSの6つのデータセットを使用します。
提案モデルは,CNNモデルによるEMO-DBの精度90.34%,RAVDESSの精度90.42%,LSTMモデルによるTESSの精度99.48%,CNNモデルによるCREMAの精度69.72%,CNNモデルによるSAVEEの精度85.76%,の精度90.34%を実行する。
論文 参考訳(メタデータ) (2023-07-06T07:27:59Z) - Prediction of speech intelligibility with DNN-based performance measures [9.883633991083789]
本稿では,自動音声認識(ASR)に基づく音声認識モデルを提案する。
ディープニューラルネットワーク(DNN)の音素確率と、これらの確率から単語エラー率を推定するパフォーマンス指標を組み合わせる。
提案モデルはラベルベースモデルとほぼ同等に動作し,ベースラインモデルよりも精度の高い予測を行う。
論文 参考訳(メタデータ) (2022-03-17T08:05:38Z) - Exploiting Hybrid Models of Tensor-Train Networks for Spoken Command
Recognition [9.262289183808035]
本研究の目的は,低複雑性音声コマンド認識(SCR)システムの設計である。
我々は、テンソルトレイン(TT)ネットワークの深いハイブリッドアーキテクチャを利用して、エンドツーエンドのSRCパイプラインを構築する。
提案したCNN+(TT-DNN)モデルでは,CNNモデルより4倍少ないモデルパラメータで96.31%の競争精度が得られる。
論文 参考訳(メタデータ) (2022-01-11T05:57:38Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z) - DNN-Based Semantic Model for Rescoring N-best Speech Recognition List [8.934497552812012]
自動音声認識(ASR)システムの単語誤り率(WER)は、トレーニングと騒音等によるテスト条件とのミスマッチが発生した場合に増加する。
本研究の目的は、歪み音の特徴を補うための長期意味関係をモデル化することで、ASRを改善することである。
論文 参考訳(メタデータ) (2020-11-02T13:50:59Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。