論文の概要: Multistream CNN for Robust Acoustic Modeling
- arxiv url: http://arxiv.org/abs/2005.10470v2
- Date: Sun, 25 Apr 2021 05:47:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 23:57:26.269304
- Title: Multistream CNN for Robust Acoustic Modeling
- Title(参考訳): ロバスト音響モデリングのためのマルチストリームCNN
- Authors: Kyu J. Han, Jing Pan, Venkata Krishna Naveen Tadala, Tao Ma and Dan
Povey
- Abstract要約: マルチストリームCNNは音声認識タスクにおけるロバスト音響モデリングのための新しいニューラルネットワークアーキテクチャである。
我々は、カルディの最良のTDNN-Fモデルに対して、様々なデータセットで一貫した改善を示す。
リアルタイム係数では、マルチストリームCNNはベースラインのTDNN-Fを15%上回る。
- 参考スコア(独自算出の注目度): 17.155489701060542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes multistream CNN, a novel neural network architecture for
robust acoustic modeling in speech recognition tasks. The proposed architecture
processes input speech with diverse temporal resolutions by applying different
dilation rates to convolutional neural networks across multiple streams to
achieve the robustness. The dilation rates are selected from the multiples of a
sub-sampling rate of 3 frames. Each stream stacks TDNN-F layers (a variant of
1D CNN), and output embedding vectors from the streams are concatenated then
projected to the final layer. We validate the effectiveness of the proposed
multistream CNN architecture by showing consistent improvements against Kaldi's
best TDNN-F model across various data sets. Multistream CNN improves the WER of
the test-other set in the LibriSpeech corpus by 12% (relative). On custom data
from ASAPP's production ASR system for a contact center, it records a relative
WER improvement of 11% for customer channel audio to prove its robustness to
data in the wild. In terms of real-time factor, multistream CNN outperforms the
baseline TDNN-F by 15%, which also suggests its practicality on production
systems. When combined with self-attentive SRU LM rescoring, multistream CNN
contributes for ASAPP to achieve the best WER of 1.75% on test-clean in
LibriSpeech.
- Abstract(参考訳): 本稿では,音声認識タスクにおけるロバスト音響モデリングのためのニューラルネットワークアーキテクチャであるマルチストリームCNNを提案する。
提案するアーキテクチャは,複数のストリームにまたがる畳み込みニューラルネットワークに異なる拡張率を適用することで,時間分解能の異なる入力音声を処理する。
ダイレーションレートは、3フレームのサブサンプリングレートの倍数から選択される。
各ストリームはtdnn-f層(1d cnnの変種)をスタックし、ストリームからの埋め込みベクトルを連結して最終層に投影する。
提案するマルチストリームcnnアーキテクチャの有効性を検証するために,kaldi の優れた tdnn-f モデルに対する一貫性のある改善を示す。
マルチストリームCNNは、LibriSpeechコーパスの他のテストセットのWERを12%改善する(相対的)。
連絡先センター向けのASAPPのASRシステムからのカスタムデータに基づいて、顧客チャネルオーディオに対するWERの相対的な改善を11%記録し、荒野のデータに対するロバスト性を証明する。
実時間係数の面では、マルチストリームCNNはベースラインのTDNN-Fを15%上回り、生産システムにおける実用性も示唆している。
自己アテンティブなSRU LM再構成と組み合わせることで、マルチストリームCNNは、LibriSpeechのテストクリーンで1.75%の最高のWERを達成するためにASAPPに貢献する。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - An Efficient Evolutionary Deep Learning Framework Based on Multi-source
Transfer Learning to Evolve Deep Convolutional Neural Networks [8.40112153818812]
畳み込みニューラルネットワーク(CNN)は、より複雑なトポロジを導入し、より深くより広いCNNへのキャパシティを拡大することで、長年にわたって、より優れたパフォーマンスを実現してきた。
計算コストは依然としてCNNを自動設計するボトルネックである。
本稿では, CNNを効率的に進化させるために, トランスファーラーニングにヒントを得て, 新たな進化的計算ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-07T20:22:58Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - Exploiting Hybrid Models of Tensor-Train Networks for Spoken Command
Recognition [9.262289183808035]
本研究の目的は,低複雑性音声コマンド認識(SCR)システムの設計である。
我々は、テンソルトレイン(TT)ネットワークの深いハイブリッドアーキテクチャを利用して、エンドツーエンドのSRCパイプラインを構築する。
提案したCNN+(TT-DNN)モデルでは,CNNモデルより4倍少ないモデルパラメータで96.31%の競争精度が得られる。
論文 参考訳(メタデータ) (2022-01-11T05:57:38Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z) - A temporal-to-spatial deep convolutional neural network for
classification of hand movements from multichannel electromyography data [0.14502611532302037]
我々は,マルチチャネルsEMGのための深部CNNにおける初期処理層の設計を提案し,評価する新しい貢献を行う。
本稿では,各sEMGチャネル上で第1層が個別に畳み込みを行い,時間的特徴を抽出する,新しい時間的空間的CNNアーキテクチャを提案する。
我々の新しいTtS CNN設計はデータベース1では66.6%、データベース2では67.8%の精度を実現している。
論文 参考訳(メタデータ) (2020-07-16T09:11:26Z) - ASAPP-ASR: Multistream CNN and Self-Attentive SRU for SOTA Speech
Recognition [21.554020483837096]
本稿では,2つの新しいニューラルネットワークアーキテクチャを持つLibriSpeechコーパス上でのSOTA(State-of-the-art)性能について述べる。
ハイブリッドASRフレームワークでは、マルチストリームCNN音響モデルが複数の並列パイプラインにおける音声フレームの入力を処理する。
さらに,24層SRU言語モデルを用いてN-best再構成を行い,テストクリーンで1.75%,他で4.46%のWERを実現した。
論文 参考訳(メタデータ) (2020-05-21T05:18:34Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。