論文の概要: Improved Robustness to Disfluencies in RNN-Transducer Based Speech
Recognition
- arxiv url: http://arxiv.org/abs/2012.06259v1
- Date: Fri, 11 Dec 2020 11:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 02:56:27.155858
- Title: Improved Robustness to Disfluencies in RNN-Transducer Based Speech
Recognition
- Title(参考訳): RNN変換器を用いた音声認識における分散性に対するロバスト性の改善
- Authors: Valentin Mendelev, Tina Raissi, Guglielmo Camporese, Manuel Giollo
- Abstract要約: RNN-T ASRの発話障害に対する堅牢性向上を目的としたデータ選択と準備選択を検討する。
学習に不均一性のある少量のデータを含むと、不均一性や混乱を伴うテストの認識精度が向上することを示す。
- 参考スコア(独自算出の注目度): 1.8702587873591643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) based on Recurrent Neural Network
Transducers (RNN-T) is gaining interest in the speech community. We investigate
data selection and preparation choices aiming for improved robustness of RNN-T
ASR to speech disfluencies with a focus on partial words. For evaluation we use
clean data, data with disfluencies and a separate dataset with speech affected
by stuttering. We show that after including a small amount of data with
disfluencies in the training set the recognition accuracy on the tests with
disfluencies and stuttering improves. Increasing the amount of training data
with disfluencies gives additional gains without degradation on the clean data.
We also show that replacing partial words with a dedicated token helps to get
even better accuracy on utterances with disfluencies and stutter. The
evaluation of our best model shows 22.5% and 16.4% relative WER reduction on
those two evaluation sets.
- Abstract(参考訳): リカレントニューラルネットワークトランスデューサ(RNN-T)に基づく音声認識(ASR)が,音声コミュニティに注目されている。
RNN-T ASRの頑健性向上を目的としたデータ選択と準備選択について,部分的単語に着目した音声の拡散について検討する。
評価には,清潔なデータ,不均一なデータ,音声による別個のデータセットを用いた。
学習に不均一性のある少量のデータを含むと、不均一性や混乱を伴うテストの認識精度が向上することを示す。
不正を伴うトレーニングデータ量の増加は、クリーンデータに低下を伴わずにさらなる利益をもたらす。
また、部分的な単語を専用トークンに置き換えることで、不一致や混乱を伴う発話の精度が向上することを示す。
最適モデルの評価は,これらの2つの評価セットに対して,22.5%と16.4%の相対的なWER削減を示す。
関連論文リスト
- Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation [0.0]
進歩への重要な障壁は、大きな注釈付き不適切な音声データセットの不足である。
本稿では,標準音声における自己教師型学習を応用した包括的ASR設計手法を提案する。
結果から,比較的小さなラベル付きデータセットによる微調整wav2vec 2.0とデータ拡張による単語誤り率の低減効果が示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:56:40Z) - BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition [72.51848069125822]
本稿では,RAVEn法の拡張であるBRAVEnを提案する。
RAVEnの修正により、BRAVEnは自己教師付き手法で最先端の結果を得ることができる。
以上の結果から,手軽に手軽に利用できる音声視覚データが,コストのかかる書き起こしデータに置き換わる可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-02T16:48:20Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Weakly-supervised forced alignment of disfluent speech using
phoneme-level modeling [10.283092375534311]
重み付き有限状態変換器を用いたアライメントグラフの構成法を提案する。
提案手法は, 強制アライメントのための音声不一致の動詞的書き起こしの必要性を軽減する。
TIMITテストセットとUCLASSデータセットの劣化バージョンについて評価したところ,大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-05-30T09:57:36Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - Advancing Stuttering Detection via Data Augmentation, Class-Balanced
Loss and Multi-Contextual Deep Learning [7.42741711946564]
スタッタリング(英: Stuttering)は、制御されていない発話とコアの振る舞いを特徴とする、神経発達の音声障害である。
本稿では,データ不足に対処する多分岐学習方式におけるデータ拡張の有効性について検討する。
さらに,発声音声の異なる文脈を利用するマルチコンテキスト(MC)のStutterNetを提案する。
論文 参考訳(メタデータ) (2023-02-21T14:03:47Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - FluentNet: End-to-End Detection of Speech Disfluency with Deep Learning [23.13972240042859]
本稿では,複数の異なる分散型を検出可能なエンドツーエンドのディープニューラルネットワークであるFluentNetを提案する。
FluentNetは、強いスペクトルフレームレベルの表現の学習を容易にするSqueeze-and-Excitation Residual畳み込みニューラルネットワークで構成されている。
合成スタッターを用いたパブリックなLibriSpeechデータセットに基づく分散データセットを提案する。
論文 参考訳(メタデータ) (2020-09-23T21:51:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。