論文の概要: Heterogeneous Reservoir Computing Models for Persian Speech Recognition
- arxiv url: http://arxiv.org/abs/2205.12594v1
- Date: Wed, 25 May 2022 09:15:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 15:57:16.027427
- Title: Heterogeneous Reservoir Computing Models for Persian Speech Recognition
- Title(参考訳): ペルシャ音声認識のためのヘテロジニアス貯留層計算モデル
- Authors: Zohreh Ansari, Farzin Pourhoseini, Fatemeh Hadaeghi
- Abstract要約: Reservoir Computing Model (RC)モデルは、トレーニングに安価であること、パラメータが大幅に少なく、創発的なハードウェア技術と互換性があることが証明されている。
異なるスケールで時間的コンテキストをキャプチャする入力の非線形変換を生成するために、異種単層および多層ESNを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Over the last decade, deep-learning methods have been gradually incorporated
into conventional automatic speech recognition (ASR) frameworks to create
acoustic, pronunciation, and language models. Although it led to significant
improvements in ASRs' recognition accuracy, due to their hard constraints
related to hardware requirements (e.g., computing power and memory usage), it
is unclear if such approaches are the most computationally- and
energy-efficient options for embedded ASR applications. Reservoir computing
(RC) models (e.g., echo state networks (ESNs) and liquid state machines
(LSMs)), on the other hand, have been proven inexpensive to train, have vastly
fewer parameters, and are compatible with emergent hardware technologies.
However, their performance in speech processing tasks is relatively inferior to
that of the deep-learning-based models. To enhance the accuracy of the RC in
ASR applications, we propose heterogeneous single and multi-layer ESNs to
create non-linear transformations of the inputs that capture temporal context
at different scales. To test our models, we performed a speech recognition task
on the Farsdat Persian dataset. Since, to the best of our knowledge, standard
RC has not yet been employed to conduct any Persian ASR tasks, we also trained
conventional single-layer and deep ESNs to provide baselines for comparison.
Besides, we compared the RC performance with a standard long-short-term memory
(LSTM) model. Heterogeneous RC models (1) show improved performance to the
standard RC models; (2) perform on par in terms of recognition accuracy with
the LSTM, and (3) reduce the training time considerably.
- Abstract(参考訳): 過去10年間で、ディープラーニング手法は、音響、発音、言語モデルを作成するために、従来の自動音声認識(ASR)フレームワークに徐々に組み込まれてきた。
ハードウェア要件(例えば、計算能力とメモリ使用量)に厳しい制約があるため、ASRの認識精度は大幅に改善されたが、そのようなアプローチが組み込みASRアプリケーションにとって最も計算上かつエネルギー効率のよい選択肢であるかどうかは不明である。
一方、Reservoir Computing(RC)モデル(例えば、エコー状態ネットワーク(ESN)や液体状態マシン(LSM))は、訓練に安価であることが証明されており、パラメータは大幅に少なく、創発的ハードウェア技術と互換性がある。
しかし, 音声処理タスクの性能は, ディープラーニングモデルよりも比較的劣っている。
asr応用におけるrcの精度を高めるために,異種単層および多層esnを提案し,異なるスケールで時空間をキャプチャする入力の非線形変換を行う。
モデルをテストするために、Farsdatペルシャデータセット上で音声認識タスクを実行した。
我々の知る限りでは、標準RCはペルシアのASRタスクにはまだ使われていないので、比較基準を提供するために従来の単層および深部ESNを訓練した。
さらに、RC性能を標準長寿命メモリ(LSTM)モデルと比較した。
不均一RCモデル(1)では,標準RCモデルの性能が向上し,(2)LSTMによる認識精度が同等に向上し,(3)トレーニング時間が大幅に短縮された。
関連論文リスト
- CTC-Assisted LLM-Based Contextual ASR [40.6542391788212]
効率的なフィルタリングアルゴリズムを用いたCTC支援LLM型コンテキストASRモデルを提案する。
我々のモデルは、稀に長い尾の単語を認識することを目的とした、Librispeechテストクリーンおよびテストサブセットにおいて1.27%/3.67%のWER/B-WERと2.72%/8.02%のWERを達成している。
論文 参考訳(メタデータ) (2024-11-10T11:47:50Z) - Efficient infusion of self-supervised representations in Automatic Speech Recognition [1.2972104025246092]
Wav2vecやHuBERTのような自己教師付き学習(SSL)モデルは、音声関連のタスクに対して最先端の結果をもたらす。
本稿では,SSLモデルからASRアーキテクチャへの表現を効率的に組み込むために,フレームワイズ付加と(2)クロスアテンション機構を用いる2つの簡単なアプローチを提案する。
提案手法により,Librispeech と Tedlium のデータセットにおいて,より高速なトレーニングが可能となり,大幅な性能向上が期待できる。
論文 参考訳(メタデータ) (2024-04-19T05:01:12Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - A baseline model for computationally inexpensive speech recognition for
Kazakh using the Coqui STT framework [0.0]
我々は,Coqui STTフレームワークを用いて,新しいベースライン音響モデルと3つの言語モデルを訓練する。
結果は有望に見えるが、実運用レベルの精度に到達するには、トレーニングとパラメータスイープのさらなるエポックが必要である。
論文 参考訳(メタデータ) (2021-07-19T14:17:42Z) - SynthASR: Unlocking Synthetic Data for Speech Recognition [15.292920497489925]
そこで本研究では,ASRモデルトレーニングのためのデータが少ない,あるいは取得が困難なアプリケーションにおいて,合成音声をASRトレーニング(SynthASR)に活用することを提案する。
薬物名認識のための新しい応用のための社内データセットを用いて実験を行ったところ、合成音声を用いたASR RNN-Tモデルのトレーニングにより、新しいアプリケーションの認識性能が65%以上向上した。
論文 参考訳(メタデータ) (2021-06-14T23:26:44Z) - Improving RNN Transducer Based ASR with Auxiliary Tasks [21.60022481898402]
単一ニューラルネットワークを用いたエンドツーエンド自動音声認識(ASR)モデルは、最近最先端の結果を実証した。
本研究では,リカレントニューラルネットワークトランスデューサ(RNN-T)が補助タスクを実行することで,より優れたASR精度を実現する方法を検討する。
論文 参考訳(メタデータ) (2020-11-05T21:46:32Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。