論文の概要: Leveraging End-to-End Speech Recognition with Neural Architecture Search
- arxiv url: http://arxiv.org/abs/1912.05946v2
- Date: Sat, 20 May 2023 23:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 08:58:24.133029
- Title: Leveraging End-to-End Speech Recognition with Neural Architecture Search
- Title(参考訳): ニューラルアーキテクチャ探索によるエンドツーエンド音声認識の活用
- Authors: Ahmed Baruwa, Mojeed Abisiga, Ibrahim Gbadegesin, Afeez Fakunle
- Abstract要約: ニューラルネットワーク最適化により,ディープスピーチモデルの精度を大幅に向上できることを示す。
提案手法は, TIMITコーパスにおける単語誤り率(WER)の7%, TIMITコーパスにおける13%の電話誤り率(PER)の検定誤差を, 最先端の結果と同等に達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep neural networks (DNNs) have been demonstrated to outperform many
traditional machine learning algorithms in Automatic Speech Recognition (ASR).
In this paper, we show that a large improvement in the accuracy of deep speech
models can be achieved with effective Neural Architecture Optimization at a
very low computational cost. Phone recognition tests with the popular
LibriSpeech and TIMIT benchmarks proved this fact by displaying the ability to
discover and train novel candidate models within a few hours (less than a day)
many times faster than the attention-based seq2seq models. Our method achieves
test error of 7% Word Error Rate (WER) on the LibriSpeech corpus and 13% Phone
Error Rate (PER) on the TIMIT corpus, on par with state-of-the-art results.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、ASR(Automatic Speech Recognition)において、従来の機械学習アルゴリズムよりも優れていることが実証されている。
本稿では,非常に低コストで効率的なニューラルアーキテクチャ最適化により,深層音声モデルの精度を大幅に向上できることを示す。
人気のあるlibrispeechとtimitベンチマークを用いた音声認識テストでは、注意に基づくseq2seqモデルよりも数時間(1日以内)で新しい候補モデルを発見、訓練できることが証明された。
提案手法は, TIMITコーパスにおける単語誤り率(WER)の7%, TIMITコーパスにおける13%の電話誤り率(PER)の試験誤差を, 最先端の結果と同等に達成する。
関連論文リスト
- BayesSpeech: A Bayesian Transformer Network for Automatic Speech
Recognition [0.0]
近年のエンド・ツー・エンド・エンド・ディープ・ラーニング・モデルによる開発は, 音声認識タスクにおけるRNN(Recurrent Neural Networks)の現状よりも, ほぼ, あるいはそれに近い性能を示すことが示されている。
重みのばらつきの導入によって,LibriSpeech-960のトレーニング時間と最先端性能が向上することを示す。
論文 参考訳(メタデータ) (2023-01-16T16:19:04Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - LongFNT: Long-form Speech Recognition with Factorized Neural Transducer [64.75547712366784]
文レベルの長文特徴を語彙予測器の出力と直接融合するLongFNT-Textアーキテクチャを提案する。
また,LongFNT法の有効性を,相対単語誤り率(WER)が19%,GigaSpeechコーパスが12%,LongFNT法が19%であった。
論文 参考訳(メタデータ) (2022-11-17T08:48:27Z) - Prediction of speech intelligibility with DNN-based performance measures [9.883633991083789]
本稿では,自動音声認識(ASR)に基づく音声認識モデルを提案する。
ディープニューラルネットワーク(DNN)の音素確率と、これらの確率から単語エラー率を推定するパフォーマンス指標を組み合わせる。
提案モデルはラベルベースモデルとほぼ同等に動作し,ベースラインモデルよりも精度の高い予測を行う。
論文 参考訳(メタデータ) (2022-03-17T08:05:38Z) - SAFL: A Self-Attention Scene Text Recognizer with Focal Loss [4.462730814123762]
歪みや不規則なレイアウトといった固有の問題のために、シーンテキスト認識は依然として困難である。
既存のアプローチのほとんどは、主に再発や畳み込みに基づくニューラルネットワークを利用している。
本稿では,シーンテキスト認識のための焦点損失を考慮した自己注意型ニューラルネットワークモデルSAFLを紹介する。
論文 参考訳(メタデータ) (2022-01-01T06:51:03Z) - StutterNet: Stuttering Detection Using Time Delay Neural Network [9.726119468893721]
本稿では,新しい深層学習に基づく発話検出システムstutternetについて述べる。
我々は、分散発話の文脈的側面を捉えるのに適した時間遅延ニューラルネットワーク(TDNN)を用いる。
提案手法は,有望な結果を達成し,最先端の残差ニューラルネットワーク法より優れる。
論文 参考訳(メタデータ) (2021-05-12T11:36:01Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。