論文の概要: Are E2E ASR models ready for an industrial usage?
- arxiv url: http://arxiv.org/abs/2112.12572v1
- Date: Thu, 9 Dec 2021 09:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-26 13:19:25.326302
- Title: Are E2E ASR models ready for an industrial usage?
- Title(参考訳): E2E ASRモデルは工業利用の準備が整っているか?
- Authors: Valentin Vielzeuf, Grigory Antipov
- Abstract要約: E2Eモデルがハイブリッドアプローチの代替手段であることを示す。
我々の研究は、一般化と複雑性の問題がもはや産業統合の大きな障害ではないことを示している。
- 参考スコア(独自算出の注目度): 4.5510096909636175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Automated Speech Recognition (ASR) community experiences a major turning
point with the rise of the fully-neural (End-to-End, E2E) approaches. At the
same time, the conventional hybrid model remains the standard choice for the
practical usage of ASR. According to previous studies, the adoption of E2E ASR
in real-world applications was hindered by two main limitations: their ability
to generalize on unseen domains and their high operational cost. In this paper,
we investigate both above-mentioned drawbacks by performing a comprehensive
multi-domain benchmark of several contemporary E2E models and a hybrid
baseline. Our experiments demonstrate that E2E models are viable alternatives
for the hybrid approach, and even outperform the baseline both in accuracy and
in operational efficiency. As a result, our study shows that the generalization
and complexity issues are no longer the major obstacle for industrial
integration, and draws the community's attention to other potential limitations
of the E2E approaches in some specific use-cases.
- Abstract(参考訳): 自動音声認識(ASR)コミュニティは、完全ニューロン(End-to-End, E2E)アプローチの台頭とともに大きな転換点を経験している。
同時に、従来のハイブリッドモデルがASRの実用的利用の標準選択として残っている。
以前の研究によると、現実世界のアプリケーションにおけるE2E ASRの採用は、目に見えないドメインを一般化する能力と高い運用コストという2つの大きな制限によって妨げられた。
本稿では,複数の現代E2Eモデルとハイブリッドベースラインの総合的マルチドメインベンチマークを行うことにより,上記の両方の欠点を考察する。
実験により,E2Eモデルはハイブリッドアプローチの代替として有効であり,精度と操作効率の両方でベースラインを上回ります。
その結果, 一般化と複雑性の問題が産業統合の大きな障害ではなく, 特定のユースケースにおけるE2Eアプローチの潜在的な限界にコミュニティの注意を向けることが示唆された。
関連論文リスト
- Bench2Drive: Towards Multi-Ability Benchmarking of Closed-Loop End-To-End Autonomous Driving [59.705635382104454]
本稿では,E2E-ADシステムのマルチ能力をクローズドループで評価するための最初のベンチマークであるBench2Driveを紹介する。
我々は最先端のE2E-ADモデルを実装し、Bench2Driveで評価し、現状と今後の方向性について洞察を提供する。
論文 参考訳(メタデータ) (2024-06-06T09:12:30Z) - E2E-AT: A Unified Framework for Tackling Uncertainty in Task-aware
End-to-end Learning [9.741277008050927]
本稿では,機械学習モデルの入力特徴空間と制約付き最適化モデルの両方で生じる不確実性をカバーする統一フレームワークを提案する。
トレーニング中にCOの不確かさを無視することは、一般化エラーの新たな引き金となる。
このフレームワークはロバストな最適化問題として記述され、エンド・ツー・エンドの対角訓練(E2E-AT)によって現実的に解決されている。
論文 参考訳(メタデータ) (2023-12-17T02:23:25Z) - Power Hungry Processing: Watts Driving the Cost of AI Deployment? [74.19749699665216]
生成された多目的AIシステムは、機械学習(ML)モデルをテクノロジに構築するための統一的なアプローチを約束する。
この「一般性」の野心は、これらのシステムが必要とするエネルギー量と放出する炭素量を考えると、環境に急激なコストがかかる。
これらのモデルを用いて,代表的なベンチマークデータセット上で1,000の推論を行うのに必要なエネルギーと炭素の量として,デプロイメントコストを測定した。
本稿は、多目的MLシステムの展開動向に関する議論から締めくくり、エネルギーと排出の面でコストの増大に対して、その実用性はより意図的に重み付けされるべきである、と警告する。
論文 参考訳(メタデータ) (2023-11-28T15:09:36Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Contextual Density Ratio for Language Model Biasing of Sequence to
Sequence ASR Systems [2.4909170697740963]
本稿では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。
提案手法は,テストセット全体の認識精度を低下させることなく,E2Eベースライン上の名前を46.5%向上させる。
論文 参考訳(メタデータ) (2022-06-29T13:12:46Z) - Consistent Training and Decoding For End-to-end Speech Recognition Using
Lattice-free MMI [67.13999010060057]
本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。
LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
論文 参考訳(メタデータ) (2021-12-05T07:30:17Z) - Recent Advances in End-to-End Automatic Speech Recognition [38.34528629062487]
我々は、E2Eモデルの最近の進歩を概観し、業界の観点からこれらの課題に対処する技術に焦点を当てる。
従来のハイブリッドモデルは、何十年にもわたって生産に最適化されている。
これらすべての要因に対して優れたソリューションを提供していないため、E2Eモデルが広く商業化されることは困難である。
論文 参考訳(メタデータ) (2021-11-02T15:49:20Z) - Have best of both worlds: two-pass hybrid and E2E cascading framework
for speech recognition [71.30167252138048]
ハイブリッド・エンド・ツー・エンド(E2E)システムは音声認識結果に異なる誤りパターンを持つ。
本稿では,ハイブリッドモデルとE2Eモデルを組み合わせた2パスハイブリッドおよびE2Eカスケーディング(HEC)フレームワークを提案する。
提案システムでは,各システムに対して8~10%の単語誤り率削減を実現している。
論文 参考訳(メタデータ) (2021-10-10T20:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。