論文の概要: Evaluation of real-time transcriptions using end-to-end ASR models
- arxiv url: http://arxiv.org/abs/2409.05674v2
- Date: Wed, 11 Sep 2024 10:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 13:13:20.783116
- Title: Evaluation of real-time transcriptions using end-to-end ASR models
- Title(参考訳): エンドツーエンドASRモデルを用いたリアルタイム転写の評価
- Authors: Carlos Arriaga, Alejandro Pozo, Javier Conde, Alvaro Alonso,
- Abstract要約: リアルタイムのシナリオでは、音声は事前に記録されておらず、入力された音声は、ASRシステムによって処理されるように断片化されなければならない。
本稿では、3つの音声分割アルゴリズムを異なるASRモデルで評価し、転写品質とエンドツーエンド遅延の両方に与える影響を判定する。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) or Speech-to-text (STT) has greatly evolved in the last few years. Traditional architectures based on pipelines have been replaced by joint end-to-end (E2E) architectures that simplify and streamline the model training process. In addition, new AI training methods, such as weak-supervised learning have reduced the need for high-quality audio datasets for model training. However, despite all these advancements, little to no research has been done on real-time transcription. In real-time scenarios, the audio is not pre-recorded, and the input audio must be fragmented to be processed by the ASR systems. To achieve real-time requirements, these fragments must be as short as possible to reduce latency. However, audio cannot be split at any point as dividing an utterance into two separate fragments will generate an incorrect transcription. Also, shorter fragments provide less context for the ASR model. For this reason, it is necessary to design and test different splitting algorithms to optimize the quality and delay of the resulting transcription. In this paper, three audio splitting algorithms are evaluated with different ASR models to determine their impact on both the quality of the transcription and the end-to-end delay. The algorithms are fragmentation at fixed intervals, voice activity detection (VAD), and fragmentation with feedback. The results are compared to the performance of the same model, without audio fragmentation, to determine the effects of this division. The results show that VAD fragmentation provides the best quality with the highest delay, whereas fragmentation at fixed intervals provides the lowest quality and the lowest delay. The newly proposed feedback algorithm exchanges a 2-4% increase in WER for a reduction of 1.5-2s delay, respectively, to the VAD splitting.
- Abstract(参考訳): 音声認識(ASR)や音声テキスト(STT)はここ数年で大きく進歩している。
パイプラインに基づく従来のアーキテクチャは、モデルのトレーニングプロセスを簡素化し、合理化するための統合エンドツーエンド(E2E)アーキテクチャに置き換えられている。
さらに、弱教師付き学習のような新しいAIトレーニング手法は、モデルトレーニングのための高品質なオーディオデータセットの必要性を減らした。
しかし、これらの進歩にもかかわらず、リアルタイムの転写の研究はほとんど、あるいは全く行われていない。
リアルタイムのシナリオでは、音声は事前に記録されておらず、入力された音声は、ASRシステムによって処理されるように断片化されなければならない。
リアルタイムの要件を達成するためには、これらのフラグメントを可能な限り短くしてレイテンシを低減する必要がある。
しかし、音声は、発話を2つの別々の断片に分割すると誤った書き起こしが発生するため、いかなる時点でも分割することはできない。
また、短いフラグメントはASRモデルのコンテキストを減らします。
そのため、異なる分割アルゴリズムを設計し、テストし、結果の転写の質と遅延を最適化する必要がある。
本稿では、3つの音声分割アルゴリズムを異なるASRモデルで評価し、転写品質とエンドツーエンド遅延の両方に与える影響を判定する。
アルゴリズムは一定間隔での断片化、音声活動検出(VAD)、フィードバックによる断片化である。
その結果、音声の断片化なしに同じモデルの性能を比較して、この分割の効果を判定する。
その結果, VADフラグメンテーションは最高の品質を最高の遅延で提供するのに対し, 一定間隔でのフラグメンテーションは最低品質と最低遅延を与えることがわかった。
新たに提案されたフィードバックアルゴリズムは, 1.5-2s遅延の低減のためにWERの2-4%増加をVADスプリッティングと交換する。
関連論文リスト
- Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR
Error Correction [0.9502148118198473]
単語誤り率(WER)を低減する新しい非自己回帰的(NAR)アプローチであるPATCorrectを提案する。
PATCorrectは、様々な上流ASRシステムにおいて、英語コーパスにおける最先端のNAR法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-10T04:05:24Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Joint Audio/Text Training for Transformer Rescorer of Streaming Speech
Recognition [13.542483062256109]
トランスフォーマー・リスコラーのための共同音声/テキスト学習法を提案する。
トレーニング手法は標準のTransformer Rescorerと比較して単語誤り率(WER)を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-31T22:38:28Z) - Iterative pseudo-forced alignment by acoustic CTC loss for
self-supervised ASR domain adaptation [80.12316877964558]
特定のドメインからの高品質なデータラベリングはコストと人的時間を要する。
本稿では,反復的擬力アライメントアルゴリズムに基づく自己教師付きドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T07:23:08Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Sequence-to-Sequence Learning via Attention Transfer for Incremental
Speech Recognition [25.93405777713522]
ISR タスクにアテンションベース ASR の本来のアーキテクチャを用いることができるかを検討する。
我々は、より薄いモデルや浅いモデルを使う代わりに、教師モデルのオリジナルのアーキテクチャを短いシーケンスで保持する代替の学生ネットワークを設計する。
実験の結果,認識プロセスの開始時刻を約1.7秒で遅延させることで,終了まで待たなければならないものと同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-04T05:06:01Z) - Contextualized Translation of Automatically Segmented Speech [20.334746967390164]
ランダムにセグメント化されたデータに基づいてモデルをトレーニングし、ファインチューニングとコンテキストとして前のセグメントを追加するという2つのアプローチを比較します。
我々の解は、VAD-segmentedの入力に対してより堅牢であり、強いベースモデルと最大4.25 BLEUポイントで設定された英独テストの異なるVADセグメンテーションの微調整よりも優れている。
論文 参考訳(メタデータ) (2020-08-05T17:52:25Z) - Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。
まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。
実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文 参考訳(メタデータ) (2020-05-25T14:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。