論文の概要: Improved Consistency Training for Semi-Supervised Sequence-to-Sequence
ASR via Speech Chain Reconstruction and Self-Transcribing
- arxiv url: http://arxiv.org/abs/2205.06963v1
- Date: Sat, 14 May 2022 04:26:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 15:09:32.487061
- Title: Improved Consistency Training for Semi-Supervised Sequence-to-Sequence
ASR via Speech Chain Reconstruction and Self-Transcribing
- Title(参考訳): 音声連鎖再構成と自己転写による半教師付きシーケンス-シーケンス間asrの一貫性トレーニングの改善
- Authors: Heli Qi, Sashi Novitasari, Sakriani Sakti, Satoshi Nakamura
- Abstract要約: 半教師付きS2S ASRの整合性訓練パラダイムを提案する。
音声連鎖再構成を弱い拡張として利用し,高品質な擬似ラベルを生成する。
改良されたパラダイムは、単一話者設定で12.2%のCER改善、マルチ話者設定で38.6%を実現している。
- 参考スコア(独自算出の注目度): 21.049557187137776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consistency regularization has recently been applied to semi-supervised
sequence-to-sequence (S2S) automatic speech recognition (ASR). This principle
encourages an ASR model to output similar predictions for the same input speech
with different perturbations. The existing paradigm of semi-supervised S2S ASR
utilizes SpecAugment as data augmentation and requires a static teacher model
to produce pseudo transcripts for untranscribed speech. However, this paradigm
fails to take full advantage of consistency regularization. First, the masking
operations of SpecAugment may damage the linguistic contents of the speech,
thus influencing the quality of pseudo labels. Second, S2S ASR requires both
input speech and prefix tokens to make the next prediction. The static prefix
tokens made by the offline teacher model cannot match dynamic pseudo labels
during consistency training. In this work, we propose an improved consistency
training paradigm of semi-supervised S2S ASR. We utilize speech chain
reconstruction as the weak augmentation to generate high-quality pseudo labels.
Moreover, we demonstrate that dynamic pseudo transcripts produced by the
student ASR model benefit the consistency training. Experiments on LJSpeech and
LibriSpeech corpora show that compared to supervised baselines, our improved
paradigm achieves a 12.2% CER improvement in the single-speaker setting and
38.6% in the multi-speaker setting.
- Abstract(参考訳): 近年,半教師付きシーケンス列(s2s)自動音声認識(asr)に一貫性規則化が適用されている。
この原理により、ASRモデルは、異なる摂動を持つ同じ入力音声に対して同様の予測を出力する。
半教師付きS2S ASRの既存のパラダイムは、SpecAugmentをデータ拡張として利用し、非転写音声の擬似転写を生成するために静的教師モデルを必要とする。
しかし、このパラダイムは一貫性の正規化を最大限に活用できない。
まず、スペクタグメントのマスキング操作は、音声の言語的内容に影響を与え、擬似ラベルの品質に影響を及ぼす可能性がある。
次に、S2S ASRは次の予測を行うために入力音声とプレフィックストークンの両方を必要とする。
オフライン教師モデルで作成された静的接頭辞トークンは、一貫性トレーニング中に動的擬似ラベルと一致しない。
本研究では,半教師付きS2S ASRの整合性訓練パラダイムを提案する。
音声連鎖再構成を弱い拡張として利用し,高品質な擬似ラベルを生成する。
さらに,学生のASRモデルが生成する動的擬似転写が整合性トレーニングの恩恵を受けることを示す。
ljspeechとlibrispeech corporaの実験では、教師付きベースラインと比較して、改良されたパラダイムは単一話者設定で12.2%、複数話者設定で38.6%改善した。
関連論文リスト
- Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic
Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。
提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。
ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文 参考訳(メタデータ) (2024-01-03T02:03:36Z) - Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of SSWP [18.90593650641679]
本稿では,2段階自動アノテーションパイプラインを提案する。
第1段階では,音声文と単語句読解ペアのコントラスト事前学習を用いて,潜在表現における韻律情報を強化する。
第2段階では,事前訓練されたエンコーダ,テキスト合成方式,シーケンス分類器からなるマルチモーダルな韻律アノテータを構築した。
英語韻律境界の実験により,韻律語と韻律句に対する0.72と0.93f1のスコアで最先端のSOTA(State-of-the-art)を達成できた。
論文 参考訳(メタデータ) (2023-09-11T12:50:28Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Improving Sequence-to-Sequence Pre-training via Sequence Span Rewriting [54.03356526990088]
本稿では,Sequence Span Rewriting (SSR) を自己教師付きシーケンス・ツー・シーケンス(seq2seq)事前学習目的として提案する。
SSRは、モデルに不完全なスパンを書き直すように監督することで、より細かい学習信号をテキスト表現に提供します。
各種Seq2seqタスクのT5モデルによる実験により,SSRはSeq2seq事前学習を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2021-01-02T10:27:11Z) - Sequence-to-Sequence Learning via Attention Transfer for Incremental
Speech Recognition [25.93405777713522]
ISR タスクにアテンションベース ASR の本来のアーキテクチャを用いることができるかを検討する。
我々は、より薄いモデルや浅いモデルを使う代わりに、教師モデルのオリジナルのアーキテクチャを短いシーケンスで保持する代替の学生ネットワークを設計する。
実験の結果,認識プロセスの開始時刻を約1.7秒で遅延させることで,終了まで待たなければならないものと同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-04T05:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。