論文の概要: Recent Advances in End-to-End Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2111.01690v1
- Date: Tue, 2 Nov 2021 15:49:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 13:58:44.415509
- Title: Recent Advances in End-to-End Automatic Speech Recognition
- Title(参考訳): エンドツーエンド音声認識の最近の進歩
- Authors: Jinyu Li
- Abstract要約: 我々は、E2Eモデルの最近の進歩を概観し、業界の観点からこれらの課題に対処する技術に焦点を当てる。
従来のハイブリッドモデルは、何十年にもわたって生産に最適化されている。
これらすべての要因に対して優れたソリューションを提供していないため、E2Eモデルが広く商業化されることは困難である。
- 参考スコア(独自算出の注目度): 38.34528629062487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the speech community is seeing a significant trend of moving from
deep neural network based hybrid modeling to end-to-end (E2E) modeling for
automatic speech recognition (ASR). While E2E models achieve the
state-of-the-art results in most benchmarks in terms of ASR accuracy, hybrid
models are still used in a large proportion of commercial ASR systems at the
current time. There are lots of practical factors that affect the production
model deployment decision. Traditional hybrid models, being optimized for
production for decades, are usually good at these factors. Without providing
excellent solutions to all these factors, it is hard for E2E models to be
widely commercialized. In this paper, we will overview the recent advances in
E2E models, focusing on technologies addressing those challenges from the
industry's perspective.
- Abstract(参考訳): 近年、音声コミュニティでは、ディープニューラルネットワークに基づくハイブリッドモデリングから、自動音声認識(asr)のためのエンドツーエンド(e2e)モデリングへの移行が大きなトレンドとなっている。
e2eモデルはasrの精度でほとんどのベンチマークで最先端の結果を達成しているが、ハイブリッドモデルは現在でも多くの商用asrシステムで使用されている。
運用モデルデプロイメントの決定に影響を及ぼす現実的な要因はたくさんあります。
従来のハイブリッドモデルは、何十年にもわたって生産に最適化されている。
これらすべての要因に対して優れたソリューションを提供していないため、E2Eモデルが広く商業化されることは困難である。
本稿では、E2Eモデルの最近の進歩を概観し、業界の観点からこれらの課題に対処する技術に焦点をあてる。
関連論文リスト
- Enhancing CTC-based speech recognition with diverse modeling units [2.723573795552244]
近年,エンド・ツー・エンド(E2E)自動音声認識(ASR)モデルの進化が目覚ましい。
E2Eシステムの上に、研究者はE2EモデルのN-best仮説を音素モデルで再現することで、かなり精度を向上した。
本稿では,E2Eモデルと多種多様なモデリングユニットを併用した効率的な共同学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-05T13:52:55Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - A Generative Approach for Production-Aware Industrial Network Traffic
Modeling [70.46446906513677]
ドイツにあるTrumpf工場に配備されたレーザー切断機から発生するネットワークトラフィックデータについて検討した。
我々は、トラフィック統計を分析し、マシンの内部状態間の依存関係をキャプチャし、ネットワークトラフィックを生産状態依存プロセスとしてモデル化する。
可変オートエンコーダ(VAE)、条件付き可変オートエンコーダ(CVAE)、生成逆ネットワーク(GAN)など、様々な生成モデルの性能の比較を行った。
論文 参考訳(メタデータ) (2022-11-11T09:46:58Z) - Contextual Density Ratio for Language Model Biasing of Sequence to
Sequence ASR Systems [2.4909170697740963]
本稿では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。
提案手法は,テストセット全体の認識精度を低下させることなく,E2Eベースライン上の名前を46.5%向上させる。
論文 参考訳(メタデータ) (2022-06-29T13:12:46Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - Are E2E ASR models ready for an industrial usage? [4.5510096909636175]
E2Eモデルがハイブリッドアプローチの代替手段であることを示す。
我々の研究は、一般化と複雑性の問題がもはや産業統合の大きな障害ではないことを示している。
論文 参考訳(メタデータ) (2021-12-09T09:28:05Z) - Have best of both worlds: two-pass hybrid and E2E cascading framework
for speech recognition [71.30167252138048]
ハイブリッド・エンド・ツー・エンド(E2E)システムは音声認識結果に異なる誤りパターンを持つ。
本稿では,ハイブリッドモデルとE2Eモデルを組み合わせた2パスハイブリッドおよびE2Eカスケーディング(HEC)フレームワークを提案する。
提案システムでは,各システムに対して8~10%の単語誤り率削減を実現している。
論文 参考訳(メタデータ) (2021-10-10T20:11:38Z) - SynthASR: Unlocking Synthetic Data for Speech Recognition [15.292920497489925]
そこで本研究では,ASRモデルトレーニングのためのデータが少ない,あるいは取得が困難なアプリケーションにおいて,合成音声をASRトレーニング(SynthASR)に活用することを提案する。
薬物名認識のための新しい応用のための社内データセットを用いて実験を行ったところ、合成音声を用いたASR RNN-Tモデルのトレーニングにより、新しいアプリケーションの認識性能が65%以上向上した。
論文 参考訳(メタデータ) (2021-06-14T23:26:44Z) - CorDEL: A Contrastive Deep Learning Approach for Entity Linkage [70.82533554253335]
エンティティリンケージ(EL)は、データのクリーニングと統合において重要な問題である。
新たなデータの増加に伴い、ディープラーニング(DL)ベースのアプローチが提案され、従来のモデルに付随するELの高コスト化が図られている。
我々は、ツインネットワークアーキテクチャはELに準最適であり、既存のモデルに固有の欠点をもたらすと主張している。
論文 参考訳(メタデータ) (2020-09-15T16:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。