論文の概要: End-to-End Speech Recognition: A Survey
- arxiv url: http://arxiv.org/abs/2303.03329v1
- Date: Fri, 3 Mar 2023 01:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 15:00:28.674292
- Title: End-to-End Speech Recognition: A Survey
- Title(参考訳): エンドツーエンド音声認識:サーベイ
- Authors: Rohit Prabhavalkar, Takaaki Hori, Tara N. Sainath, Ralf Schl\"uter,
Shinji Watanabe
- Abstract要約: 本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
- 参考スコア(独自算出の注目度): 68.35707678386949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the last decade of automatic speech recognition (ASR) research, the
introduction of deep learning brought considerable reductions in word error
rate of more than 50% relative, compared to modeling without deep learning. In
the wake of this transition, a number of all-neural ASR architectures were
introduced. These so-called end-to-end (E2E) models provide highly integrated,
completely neural ASR models, which rely strongly on general machine learning
knowledge, learn more consistently from data, while depending less on ASR
domain-specific experience. The success and enthusiastic adoption of deep
learning accompanied by more generic model architectures lead to E2E models now
becoming the prominent ASR approach. The goal of this survey is to provide a
taxonomy of E2E ASR models and corresponding improvements, and to discuss their
properties and their relation to the classical hidden Markov model (HMM) based
ASR architecture. All relevant aspects of E2E ASR are covered in this work:
modeling, training, decoding, and external language model integration,
accompanied by discussions of performance and deployment opportunities, as well
as an outlook into potential future developments.
- Abstract(参考訳): 音声認識(ASR)研究の過去10年間で、ディープラーニングの導入により、単語誤り率の50%以上を、ディープラーニングのないモデリングと比較して大幅に削減した。
この変遷の後、多くの全神経性asrアーキテクチャが導入された。
いわゆるエンドツーエンド(e2e)モデルは、一般的な機械学習の知識に強く依存する、高度に統合された完全にニューラルネットワークのasrモデルを提供するが、asrドメイン固有のエクスペリエンスには依存しない。
より汎用的なモデルアーキテクチャを伴うディープラーニングの成功と熱狂的な採用により、E2Eモデルは現在では顕著なASRアプローチとなっている。
この調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供し、それらの特性と古典的隠れマルコフモデル(HMM)に基づくASRアーキテクチャとの関係について議論することである。
E2E ASRのすべての関連する側面は、モデリング、トレーニング、デコーディング、および外部言語モデルの統合、パフォーマンスとデプロイメントの機会に関する議論、そして将来の発展への展望である。
関連論文リスト
- Transferable Adversarial Attacks against ASR [43.766547483367795]
最先端自動音声認識モデルにおける実用的なブラックボックス攻撃の脆弱性について検討する。
そこで本稿では,ASRに対する音声認識勾配最適化手法(SAGO)を提案する。
総合的な実験結果から,2つのデータベース上の5つのモデルにまたがるベースラインアプローチと比較して,性能が向上したことが明らかとなった。
論文 参考訳(メタデータ) (2024-11-14T06:32:31Z) - A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。
従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。
オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - Enhancing CTC-based speech recognition with diverse modeling units [2.723573795552244]
近年,エンド・ツー・エンド(E2E)自動音声認識(ASR)モデルの進化が目覚ましい。
E2Eシステムの上に、研究者はE2EモデルのN-best仮説を音素モデルで再現することで、かなり精度を向上した。
本稿では,E2Eモデルと多種多様なモデリングユニットを併用した効率的な共同学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-05T13:52:55Z) - Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition [12.77573161345651]
本稿では,E2E ASRのための事前学習された音声表現モデルと大規模言語モデル(LLM)を統合することを提案する。
提案モデルは,音響特徴抽出や音響・言語モデリングを含む,ASRプロセス全体の最適化を可能にする。
論文 参考訳(メタデータ) (2023-12-06T18:34:42Z) - ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。
この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。
Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文 参考訳(メタデータ) (2022-02-02T21:17:14Z) - Consistent Training and Decoding For End-to-end Speech Recognition Using
Lattice-free MMI [67.13999010060057]
本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。
LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
論文 参考訳(メタデータ) (2021-12-05T07:30:17Z) - SynthASR: Unlocking Synthetic Data for Speech Recognition [15.292920497489925]
そこで本研究では,ASRモデルトレーニングのためのデータが少ない,あるいは取得が困難なアプリケーションにおいて,合成音声をASRトレーニング(SynthASR)に活用することを提案する。
薬物名認識のための新しい応用のための社内データセットを用いて実験を行ったところ、合成音声を用いたASR RNN-Tモデルのトレーニングにより、新しいアプリケーションの認識性能が65%以上向上した。
論文 参考訳(メタデータ) (2021-06-14T23:26:44Z) - Towards Lifelong Learning of End-to-end ASR [81.15661413476221]
lifelong learningは、マシンが新しいデータセットから新しいタスクをシーケンシャルに学習できるようにすることを目的としている。
WERの28.7%の相対的な減少は、3つの非常に異なるベンチマークコーポラを順次学習する場合の微調整ベースラインと比較して達成された。
論文 参考訳(メタデータ) (2021-04-04T13:48:53Z) - CorDEL: A Contrastive Deep Learning Approach for Entity Linkage [70.82533554253335]
エンティティリンケージ(EL)は、データのクリーニングと統合において重要な問題である。
新たなデータの増加に伴い、ディープラーニング(DL)ベースのアプローチが提案され、従来のモデルに付随するELの高コスト化が図られている。
我々は、ツインネットワークアーキテクチャはELに準最適であり、既存のモデルに固有の欠点をもたらすと主張している。
論文 参考訳(メタデータ) (2020-09-15T16:33:05Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。