論文の概要: Echo State Speech Recognition
- arxiv url: http://arxiv.org/abs/2102.09114v1
- Date: Thu, 18 Feb 2021 02:04:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 22:50:20.611311
- Title: Echo State Speech Recognition
- Title(参考訳): エコー状態音声認識
- Authors: Harsh Shrivastava, Ankush Garg, Yuan Cao, Yu Zhang, Tara Sainath
- Abstract要約: エコー状態ネットワーク(ESN)を用いた自動音声認識モデルの提案
モデル品質はデコーダが完全にランダム化されても低下しないことを示す。
このようなモデルは、デコーダを更新する必要がないため、より効率的にトレーニングできます。
- 参考スコア(独自算出の注目度): 10.084532635965513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose automatic speech recognition (ASR) models inspired by echo state
network (ESN), in which a subset of recurrent neural networks (RNN) layers in
the models are randomly initialized and untrained. Our study focuses on RNN-T
and Conformer models, and we show that model quality does not drop even when
the decoder is fully randomized. Furthermore, such models can be trained more
efficiently as the decoders do not require to be updated. By contrast,
randomizing encoders hurts model quality, indicating that optimizing encoders
and learn proper representations for acoustic inputs are more vital for speech
recognition. Overall, we challenge the common practice of training ASR models
for all components, and demonstrate that ESN-based models can perform equally
well but enable more efficient training and storage than fully-trainable
counterparts.
- Abstract(参考訳): エコー状態ネットワーク(ESN)にインスパイアされた自動音声認識(ASR)モデルを提案する。このモデルにおける再帰ニューラルネットワーク(RNN)層のサブセットはランダムに初期化され、訓練されない。
本研究ではRNN-TおよびConformerモデルに着目し,デコーダが完全にランダム化されてもモデル品質が低下しないことを示す。
さらに、デコーダを更新する必要がないため、そのようなモデルをより効率的にトレーニングできます。
対照的に、ランダム化エンコーダはモデル品質を損なうため、音声認識にはエンコーダの最適化と適切な音響入力表現の学習が不可欠である。
全体として、すべてのコンポーネントに対してASRモデルをトレーニングする一般的な実践に挑戦し、ESNベースのモデルが完全にトレーニング可能なモデルよりも効率的なトレーニングとストレージを可能にすることを実証する。
関連論文リスト
- Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - 4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders [53.297697898510194]
我々は、4つのデコーダが同一のエンコーダを共有する共同モデリング手法を提案し、これを4Dモデリングと呼ぶ。
4Dモデルを効率的に訓練するために,マルチタスク学習を安定化させる2段階のトレーニング戦略を導入する。
さらに,3つのデコーダを組み合わせることで,新しい1パスビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T05:18:20Z) - Neural Network Parameter Diffusion [50.85251415173792]
拡散モデルは画像生成やビデオ生成において顕著な成功を収めた。
本研究は拡散モデルにも適用可能であることを示す。
高性能なニューラルネットワークパラメータを生成する。
論文 参考訳(メタデータ) (2024-02-20T16:59:03Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Visualising and Explaining Deep Learning Models for Speech Quality
Prediction [0.0]
本稿では,非侵入的音声品質予測モデルであるNISQAについて分析する。
畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)から構成される。
論文 参考訳(メタデータ) (2021-12-12T12:50:03Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Echo State Neural Machine Translation [7.496705711191467]
我々は、エコー状態ネットワーク(ESN)にインスパイアされたニューラルマシン翻訳(NMT)モデル、エコー状態NMT(ESNMT)を提案する。
この極めて単純なモデル構築およびトレーニング手順であっても、ESNMTは、完全にトレーニング可能なベースラインの70-80%の品質に達していることを示す。
論文 参考訳(メタデータ) (2020-02-27T00:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。