論文の概要: Improving short-video speech recognition using random utterance
concatenation
- arxiv url: http://arxiv.org/abs/2210.15876v1
- Date: Fri, 28 Oct 2022 03:54:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 16:59:35.188771
- Title: Improving short-video speech recognition using random utterance
concatenation
- Title(参考訳): ランダム発話結合を用いたショートビデオ音声認識の改善
- Authors: Haihua Xu, Van Tung Pham, Yerbolat Khassanov, Yist Lin, Tao Han, Tze
Yuan Chong, Yi He, Zejun Ma
- Abstract要約: 短ビデオ音声認識タスクにおいて,列車走行試験における発話長ミスマッチ問題を軽減するために,ランダム発話結合法(RUC)を提案する。
実験では,提案手法を用いることで,3倍のトレーニングデータサイズの増加で,単語誤り率低減(WERR)を実現することができる。
- 参考スコア(独自算出の注目度): 18.442254999893855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the limitations in end-to-end automatic speech recognition framework
is its performance would be compromised if train-test utterance lengths are
mismatched. In this paper, we propose a random utterance concatenation (RUC)
method to alleviate train-test utterance length mismatch issue for short-video
speech recognition task. Specifically, we are motivated by observations our
human-transcribed training utterances tend to be much shorter for short-video
spontaneous speech (~3 seconds on average), while our test utterance generated
from voice activity detection front-end is much longer (~10 seconds on
average). Such a mismatch can lead to sub-optimal performance. Experimentally,
by using the proposed RUC method, the best word error rate reduction (WERR) can
be achieved with around three fold training data size increase as well as two
utterance concatenation for each. In practice, the proposed method consistently
outperforms the strong baseline models, where 3.64% average WERR is achieved on
14 languages.
- Abstract(参考訳): エンドツーエンドの自動音声認識フレームワークの制限の1つは、列車の発話長が一致しない場合、その性能が損なわれることである。
本稿では,短ビデオ音声認識タスクにおける列車走行時間ミスマッチ問題を軽減するために,ランダム発話結合(RUC)手法を提案する。
具体的には、人間の書き起こした訓練発話は、短時間の自発音声(平均3秒)よりずっと短い傾向にあるが、音声活動検出フロントエンドから発生するテスト発話は、はるかに長い(平均10秒)。
このようなミスマッチは、準最適パフォーマンスにつながる可能性がある。
実験では, 提案手法を用いて, 単語誤り率の最大化(WERR)を約3倍の訓練データサイズ増加と2つの発話結合で達成できる。
実際、提案手法は14言語で平均WERRが平均3.64%となる強力なベースラインモデルよりも一貫して優れている。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Stutter-TTS: Controlled Synthesis and Improved Recognition of Stuttered
Speech [20.2646788350211]
スタタリング(英: Stuttering)とは、音声の自然な流れが、音節、単語、フレーズのブロック、反復、延長によって中断される言語障害である。
本稿では,多種多様な発声音声を合成できるエンドツーエンドのニューラルテキスト・音声モデルであるStutter-TTSについて述べる。
論文 参考訳(メタデータ) (2022-11-04T23:45:31Z) - Enhancing ASR for Stuttered Speech with Limited Data Using Detect and
Pass [0.0]
全世界で約7000万人が、発声障害と呼ばれる言語障害に罹患していると推定されている。
そこで本稿では,最新のASRシステムを実現するために,"Detect and Pass"と呼ばれるシンプルだが効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T19:55:23Z) - Input Length Matters: An Empirical Study Of RNN-T And MWER Training For
Long-form Telephony Speech Recognition [24.436456958434825]
本稿では,RNN-Transducer(RNN-T)モデルの単語誤り率(WER)に及ぼす発話長の訓練効果に関する実証的研究を行う。
ログ損失(RNN-T損失)と最小単語誤り率(MWER損失)の2つのトレーニング目標を比較した。
実験の結果、長文音声におけるWERは、双方の損失に対して、訓練発話の長さが大きくなるにつれて大幅に減少することがわかった。
論文 参考訳(メタデータ) (2021-10-08T00:50:46Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Super-Human Performance in Online Low-latency Recognition of
Conversational Speech [18.637636841477]
本稿では,話者の発話のわずか1秒の遅延時間で,超人的性能を実現するシステムについて述べる。
このシステムは、新しい低レイテンシインクリメンタル推論アプローチに統合された複数のアテンションベースのエンコーダデコーダネットワークを使用する。
論文 参考訳(メタデータ) (2020-10-07T14:41:32Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition [66.47000813920619]
我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。
我々は,中国における公開データセットAISHELL-1の実験を行った。
論文 参考訳(メタデータ) (2020-05-11T04:45:02Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。