論文の概要: Streaming end-to-end speech recognition with jointly trained neural
feature enhancement
- arxiv url: http://arxiv.org/abs/2105.01254v1
- Date: Tue, 4 May 2021 02:25:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 20:13:45.411258
- Title: Streaming end-to-end speech recognition with jointly trained neural
feature enhancement
- Title(参考訳): 協調学習型ニューラル特徴強調によるエンドツーエンド音声認識
- Authors: Chanwoo Kim, Abhinav Garg, Dhananjaya Gowda, Seongkyu Mun, and
Changwoo Han
- Abstract要約: そこで本研究では,MoCha(Motonic Chunkwise Attention)を用いたストリーミングエンドツーエンド音声認識モデルを提案する。
GAEF(Gradual Application of Enhanced Features)とGREL(Gradual Reduction of Enhanced Loss)の2つのトレーニング戦略を導入する。
- 参考スコア(独自算出の注目度): 20.86554979122057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a streaming end-to-end speech recognition model
based on Monotonic Chunkwise Attention (MoCha) jointly trained with enhancement
layers. Even though the MoCha attention enables streaming speech recognition
with recognition accuracy comparable to a full attention-based approach,
training this model is sensitive to various factors such as the difficulty of
training examples, hyper-parameters, and so on. Because of these issues, speech
recognition accuracy of a MoCha-based model for clean speech drops
significantly when a multi-style training approach is applied. Inspired by
Curriculum Learning [1], we introduce two training strategies: Gradual
Application of Enhanced Features (GAEF) and Gradual Reduction of Enhanced Loss
(GREL). With GAEF, the model is initially trained using clean features.
Subsequently, the portion of outputs from the enhancement layers gradually
increases. With GREL, the portion of the Mean Squared Error (MSE) loss for the
enhanced output gradually reduces as training proceeds. In experimental results
on the LibriSpeech corpus and noisy far-field test sets, the proposed model
with GAEF-GREL training strategies shows significantly better results than the
conventional multi-style training approach.
- Abstract(参考訳): 本稿では,モノトニック・チャンクワイズ・アテンション(mocha)に基づく,エンハンスメント層を併用したストリーミング音声認識モデルを提案する。
mocha attentionは、完全な注意に基づくアプローチに匹敵する認識精度を持つストリーミング音声認識を可能にするが、このモデルのトレーニングは、トレーニング例の難易度、ハイパーパラメータなど、さまざまな要因に敏感である。
これらの問題から,マルチ型学習手法を適用した場合,mochaに基づくクリーン音声モデルの音声認識精度は著しく低下する。
カリキュラム学習 [1] にインスパイアされた2つのトレーニング戦略として, GAEF (Gradual Application of Enhanced Features) とGREL (Gradual Reduction of Enhanced Loss) を導入する。
GAEFでは、モデルは最初クリーンな機能を使ってトレーニングされる。
その後、強化層からの出力部が徐々に増加する。
GRELでは、強化出力に対する平均正方形誤差(MSE)損失の一部は、トレーニングが進むにつれて徐々に減少する。
librispeechコーパスと騒がしい遠方フィールドテストセットを用いた実験結果から,gaef-grelトレーニング戦略を用いた提案モデルは,従来のマルチスタイルトレーニング手法よりも有意に優れた結果を示した。
関連論文リスト
- Focused Discriminative Training For Streaming CTC-Trained Automatic Speech Recognition Models [5.576934300567641]
本稿では,ストリーム語片エンドツーエンド(E2E)自動音声認識(ASR)モデルを改善するために,FDT(Focused Discriminative Training)と呼ばれる新たなトレーニングフレームワークを提案する。
提案手法は,音声の難解なセグメントに対するモデルの認識を識別し,改善するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-08-23T11:54:25Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Diffusion-based speech enhancement with a weighted generative-supervised
learning loss [0.0]
拡散に基づく生成モデルは近年,音声強調(SE)において注目を集めている。
そこで本研究では,従来の拡散訓練目標を平均二乗誤差(MSE)損失で拡張することを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:35Z) - End-to-End Speech Recognition and Disfluency Removal with Acoustic
Language Model Pretraining [0.0]
2段階モデルとエンドツーエンドモデルのパフォーマンス比較を再考する。
弱自己教師対象を用いて事前訓練された音声ベース言語モデルは、同様に訓練された2段階モデルの性能に適合するか、超えていることがわかった。
論文 参考訳(メタデータ) (2023-09-08T17:12:14Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - On monoaural speech enhancement for automatic recognition of real noisy
speech using mixture invariant training [33.79711018198589]
既存の混合不変訓練基準を拡張して、未ペア音声と実雑音データの両方を利用する。
実雑音音声から分離した音声の品質を向上させるためには, 未ペアクリーン音声が不可欠であることがわかった。
提案手法は、処理成果物を軽減するために、処理された信号と処理されていない信号のリミックスも行う。
論文 参考訳(メタデータ) (2022-05-03T19:37:58Z) - A Novel Speech Intelligibility Enhancement Model based on
CanonicalCorrelation and Deep Learning [12.913738983870621]
完全畳み込みニューラルネットワーク(FCN)モデルをトレーニングするために,正準相関に基づく短時間客観的インテリジェンス(CC-STOI)コスト関数を提案する。
CC-STOIに基づく音声強調フレームワークは、従来の距離ベースおよびSTOIに基づく損失関数で訓練された最先端のDLモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:48:41Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。