論文の概要: Improving the Robustness of DistilHuBERT to Unseen Noisy Conditions via
Data Augmentation, Curriculum Learning, and Multi-Task Enhancement
- arxiv url: http://arxiv.org/abs/2211.06562v1
- Date: Sat, 12 Nov 2022 03:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 19:36:21.781182
- Title: Improving the Robustness of DistilHuBERT to Unseen Noisy Conditions via
Data Augmentation, Curriculum Learning, and Multi-Task Enhancement
- Title(参考訳): データ強化, カリキュラム学習, マルチタスク強化による DistilHuBERT のノイズのない条件に対するロバスト性の改善
- Authors: Heitor R. Guimar\~aes, Arthur Pimentel, Anderson R. Avila, Mehdi
Rezagholizadeh, Tiago H. Falk
- Abstract要約: HuBERTのような既存のモデルはかなり大きいため、エッジ音声アプリケーションには適さない可能性がある。
We build on the いわゆる DistilHuBERT model that distilHuBERT system that distil HuBERTs distils its size。
- 参考スコア(独自算出の注目度): 21.154466611683056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised speech representation learning aims to extract meaningful
factors from the speech signal that can later be used across different
downstream tasks, such as speech and/or emotion recognition. Existing models,
such as HuBERT, however, can be fairly large thus may not be suitable for edge
speech applications. Moreover, realistic applications typically involve speech
corrupted by noise and room reverberation, hence models need to provide
representations that are robust to such environmental factors. In this study,
we build on the so-called DistilHuBERT model, which distils HuBERT to a
fraction of its original size, with three modifications, namely: (i) augment
the training data with noise and reverberation, while the student model needs
to distill the clean representations from the teacher model; (ii) introduce a
curriculum learning approach where increasing levels of noise are introduced as
the model trains, thus helping with convergence and with the creation of more
robust representations; and (iii) introduce a multi-task learning approach
where the model also reconstructs the clean waveform jointly with the
distillation task, thus also acting as an enhancement step to ensure additional
environment robustness to the representation. Experiments on three SUPERB tasks
show the advantages of the proposed method not only relative to the original
DistilHuBERT, but also to the original HuBERT, thus showing the advantages of
the proposed method for ``in the wild'' edge speech applications.
- Abstract(参考訳): 自己教師型音声表現学習は、音声信号から意味のある要素を抽出することを目的としており、後に音声や感情認識など、様々な下流タスクにまたがって使用できる。
しかし、HuBERTのような既存のモデルはかなり大きいため、エッジ音声アプリケーションには適さない可能性がある。
さらに、現実的な応用は、一般的にノイズや室内残響による音声の劣化を伴うため、モデルがそのような環境要因に対して堅牢な表現を提供する必要がある。
そこで本研究では,ヒューバートを元のサイズのごく一部に分解するいわゆるディズティルフベールモデル(distilhubert model)を構築し,以下の3つの修正を加えた。
(i) 生徒モデルが教師モデルからクリーン表現を蒸留する必要がある間に、学習データをノイズと残響で強化すること。
(ii)モデルトレインとして騒音レベルが増加するカリキュラム学習手法を導入し、コンバージェンスとより堅牢な表現の作成を支援する。
三 モデルが蒸留作業と共同でクリーンな波形を再構築するマルチタスク学習手法を導入することにより、表現に対する環境のさらなる堅牢性を確保するための拡張ステップとして機能する。
3つのスーパーブタスクに関する実験では、従来のディチルヒューベルト法よりも元のヒューバート法の方が優れていることが示され、そこでは'in the wild' のエッジ音声アプリケーションに対する提案手法の利点が示された。
関連論文リスト
- Speech Representation Learning Revisited: The Necessity of Separate Learnable Parameters and Robust Data Augmentation [43.479279052047985]
我々は、学習可能なパラメータを別々に使用して、他の情報をモデリングすることの重要性を理解するための予備的研究を行う。
まず、O-HuBERT法は、すべてのレイヤを利用して、他の情報をエンコードする複雑な機能を構築することができ、次に、他の情報に依存するタスクに必要な情報を学ぶために、堅牢なデータ拡張戦略が不可欠である。
論文 参考訳(メタデータ) (2024-08-20T05:45:04Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Pre-trained Model Representations and their Robustness against Noise for
Speech Emotion Analysis [6.382013662443799]
我々は、事前訓練されたモデルからのマルチモーダル融合表現を用いて、最先端の音声感情推定を生成する。
その結果,語彙表現は音響表現に比べて歪みに対して頑健であることが判明した。
論文 参考訳(メタデータ) (2023-03-03T18:22:32Z) - Exploring Effective Distillation of Self-Supervised Speech Models for
Automatic Speech Recognition [5.802425107635222]
SSLモデルの小型化は、実用価値の重要な研究方向となっている。
自動音声認識(ASR)のための HuBERT-based SSL モデルの有効蒸留について検討する。
特に低資源シナリオにおいて, 蒸留性能を高めるために, HuBERT の差別的損失を導入した。
論文 参考訳(メタデータ) (2022-10-27T17:21:14Z) - From Distillation to Hard Negative Sampling: Making Sparse Neural IR
Models More Effective [15.542082655342476]
スパース拡張ベースのレトリバーであるSPLADEを使って構築し、密集したモデルと同じトレーニング改善の恩恵を受けることができるかを示します。
ドメイン内およびゼロショット設定における有効性と効率の関係について検討する。
論文 参考訳(メタデータ) (2022-05-10T08:08:43Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - An Investigation of End-to-End Models for Robust Speech Recognition [20.998349142078805]
本稿では,頑健な音声認識のための音声強調に基づく手法と3つの異なるモデルに基づく適応手法の比較を行う。
対向学習は特定の雑音の種類において最高の性能の手法であるが、クリーン音声WERを劣化させるコストがかかる。
他の比較的定常的なノイズタイプでは、新しい音声強調技術がモデルに基づく適応技術をすべて上回っていた。
論文 参考訳(メタデータ) (2021-02-11T19:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。