論文の概要: Random Utterance Concatenation Based Data Augmentation for Improving
Short-video Speech Recognition
- arxiv url: http://arxiv.org/abs/2210.15876v2
- Date: Thu, 25 May 2023 05:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 23:45:41.738753
- Title: Random Utterance Concatenation Based Data Augmentation for Improving
Short-video Speech Recognition
- Title(参考訳): ランダム発話結合に基づく短ビデオ音声認識改善のためのデータ拡張
- Authors: Yist Y. Lin, Tao Han, Haihua Xu, Van Tung Pham, Yerbolat Khassanov,
Tze Yuang Chong, Yi He, Lu Lu, Zejun Ma
- Abstract要約: エンドツーエンド自動音声認識(ASR)フレームワークの制限の1つは、列車-テスト発話長が一致しない場合、その性能が損なわれることである。
短ビデオASRタスクにおける列車試験発話長ミスマッチ問題を軽減するために,オンザフライランダム発話結合に基づくデータ拡張手法を提案する。
15言語の平均単語誤り率を5.72%削減し、様々な発話長に対する堅牢性を向上させる。
- 参考スコア(独自算出の注目度): 20.608636109295354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of limitations in end-to-end automatic speech recognition (ASR) framework
is its performance would be compromised if train-test utterance lengths are
mismatched. In this paper, we propose an on-the-fly random utterance
concatenation (RUC) based data augmentation method to alleviate train-test
utterance length mismatch issue for short-video ASR task. Specifically, we are
motivated by observations that our human-transcribed training utterances tend
to be much shorter for short-video spontaneous speech (~3 seconds on average),
while our test utterance generated from voice activity detection front-end is
much longer (~10 seconds on average). Such a mismatch can lead to suboptimal
performance. Empirically, it's observed the proposed RUC method significantly
improves long utterance recognition without performance drop on short one.
Overall, it achieves 5.72% word error rate reduction on average for 15
languages and improved robustness to various utterance length.
- Abstract(参考訳): エンドツーエンド自動音声認識(ASR)フレームワークの制限の1つは、列車-テスト発話長が一致しない場合、その性能が損なわれることである。
本稿では,短ビデオASRタスクにおける列車-テスト発話長ミスマッチ問題を軽減するために,オンザフライランダム発話結合(RUC)に基づくデータ拡張手法を提案する。
具体的には、人間が書き起こした訓練発話は、短時間の自発音声(平均3秒)よりずっと短い傾向にあるが、音声活動検出フロントエンドから発生するテスト発話は、より長い(平均10秒)。
このようなミスマッチは、最適でないパフォーマンスにつながる可能性がある。
実験により,提案手法は,短時間で性能低下を伴わずに,長い発話認識を大幅に改善することがわかった。
全体として、15言語の平均単語誤り率を5.72%削減し、様々な発話長に対する堅牢性を改善した。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Stutter-TTS: Controlled Synthesis and Improved Recognition of Stuttered
Speech [20.2646788350211]
スタタリング(英: Stuttering)とは、音声の自然な流れが、音節、単語、フレーズのブロック、反復、延長によって中断される言語障害である。
本稿では,多種多様な発声音声を合成できるエンドツーエンドのニューラルテキスト・音声モデルであるStutter-TTSについて述べる。
論文 参考訳(メタデータ) (2022-11-04T23:45:31Z) - Enhancing ASR for Stuttered Speech with Limited Data Using Detect and
Pass [0.0]
全世界で約7000万人が、発声障害と呼ばれる言語障害に罹患していると推定されている。
そこで本稿では,最新のASRシステムを実現するために,"Detect and Pass"と呼ばれるシンプルだが効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T19:55:23Z) - Input Length Matters: An Empirical Study Of RNN-T And MWER Training For
Long-form Telephony Speech Recognition [24.436456958434825]
本稿では,RNN-Transducer(RNN-T)モデルの単語誤り率(WER)に及ぼす発話長の訓練効果に関する実証的研究を行う。
ログ損失(RNN-T損失)と最小単語誤り率(MWER損失)の2つのトレーニング目標を比較した。
実験の結果、長文音声におけるWERは、双方の損失に対して、訓練発話の長さが大きくなるにつれて大幅に減少することがわかった。
論文 参考訳(メタデータ) (2021-10-08T00:50:46Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Super-Human Performance in Online Low-latency Recognition of
Conversational Speech [18.637636841477]
本稿では,話者の発話のわずか1秒の遅延時間で,超人的性能を実現するシステムについて述べる。
このシステムは、新しい低レイテンシインクリメンタル推論アプローチに統合された複数のアテンションベースのエンコーダデコーダネットワークを使用する。
論文 参考訳(メタデータ) (2020-10-07T14:41:32Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition [66.47000813920619]
我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。
我々は,中国における公開データセットAISHELL-1の実験を行った。
論文 参考訳(メタデータ) (2020-05-11T04:45:02Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。