論文の概要: Multi-task self-supervised learning for Robust Speech Recognition
- arxiv url: http://arxiv.org/abs/2001.09239v2
- Date: Fri, 17 Apr 2020 19:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 00:09:37.530448
- Title: Multi-task self-supervised learning for Robust Speech Recognition
- Title(参考訳): ロバスト音声認識のためのマルチタスク自己教師付き学習
- Authors: Mirco Ravanelli, Jianyuan Zhong, Santiago Pascual, Pawel Swietojanski,
Joao Monteiro, Jan Trmal, Yoshua Bengio
- Abstract要約: 本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
- 参考スコア(独自算出の注目度): 75.11748484288229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the growing interest in unsupervised learning, extracting meaningful
knowledge from unlabelled audio remains an open challenge. To take a step in
this direction, we recently proposed a problem-agnostic speech encoder (PASE),
that combines a convolutional encoder followed by multiple neural networks,
called workers, tasked to solve self-supervised problems (i.e., ones that do
not require manual annotations as ground truth). PASE was shown to capture
relevant speech information, including speaker voice-print and phonemes. This
paper proposes PASE+, an improved version of PASE for robust speech recognition
in noisy and reverberant environments. To this end, we employ an online speech
distortion module, that contaminates the input signals with a variety of random
disturbances. We then propose a revised encoder that better learns short- and
long-term speech dynamics with an efficient combination of recurrent and
convolutional networks. Finally, we refine the set of workers used in
self-supervision to encourage better cooperation. Results on TIMIT, DIRHA and
CHiME-5 show that PASE+ significantly outperforms both the previous version of
PASE as well as common acoustic features. Interestingly, PASE+ learns
transferable representations suitable for highly mismatched acoustic
conditions.
- Abstract(参考訳): 教師なし学習への関心が高まっているにもかかわらず、未学習の音声から意味のある知識を抽出することはオープンな課題である。
この方向の一歩を踏み出すために、我々は最近、畳み込みエンコーダとワーカと呼ばれる複数のニューラルネットワークを組み合わせた問題非依存型音声エンコーダ(pase)を提案しました。
PASEは、話者音声プリントや音素を含む、関連する音声情報をキャプチャする。
本稿では,雑音および残響環境における頑健な音声認識のためのPASE+を提案する。
この目的のために,様々なランダムな乱れを伴う入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰ネットワークと畳み込みネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良エンコーダを提案する。
最後に、自己監督で使われる労働者のセットを洗練し、より良い協力を促進する。
TIMIT, DIRHA, CHiME-5の結果, PASE+はPASEの以前のバージョンと一般的な音響特性の両方に優れていた。
興味深いことに、PASE+は高度にミスマッチした音響条件に適した伝達可能な表現を学習する。
関連論文リスト
- DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting [14.402357651227003]
本稿では,音声信号の欠落部分を周囲の文脈から再構成する音声認識用SSLモデルについて検討する。
その目的のために、SSLエンコーダ、すなわち HuBERT とニューラルヴォコーダ、すなわち HiFiGAN を組み合わせてデコーダの役割を演じる。
論文 参考訳(メタデータ) (2024-05-30T14:41:39Z) - Self-Supervised Learning for Speech Enhancement through Synthesis [5.924928860260821]
そこで本研究では,ボコーダが雑音表現を受け入れ,クリーンな音声を直接合成する方法を学習する,デノナイズドボコーダ(DeVo)アプローチを提案する。
10msのレイテンシとパフォーマンスの低下を最小限に抑えながら,ストリーミングオーディオ上で動作可能な因果バージョンを実証した。
論文 参考訳(メタデータ) (2022-11-04T16:06:56Z) - Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild [44.92322575562816]
本稿では,その変動の中で唇と音声列を関連付けることを学習するVAE-GANアーキテクチャを提案する。
私たちのジェネレータは、あらゆる人の唇のシーケンスに対して、あらゆる声で音声を合成することを学びます。
我々は、アーキテクチャの異なるモジュールの効果を分析するために、多数のアブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-09-01T17:50:29Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。