論文の概要: HuBERT-VIC: Improving Noise-Robust Automatic Speech Recognition of Speech Foundation Model via Variance-Invariance-Covariance Regularization
- arxiv url: http://arxiv.org/abs/2508.12292v1
- Date: Sun, 17 Aug 2025 08:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.670904
- Title: HuBERT-VIC: Improving Noise-Robust Automatic Speech Recognition of Speech Foundation Model via Variance-Invariance-Covariance Regularization
- Title(参考訳): HuBERT-VIC:可変不変共分散規則化による音声基礎モデルのノイズ・ロバスト音声認識の改善
- Authors: Hyebin Ahn, Kangwook Jang, Hoirin Kim,
- Abstract要約: 本稿では, 分散, 内分散, 共分散正則化を目標としたノイズローバストSFMである HuBERT-VIC を提案する。
これらの目的は、ノイズの多い音声表現の統計を調整し、モデルが様々な音響特性を捉えることを可能にする。
HuBERTに適用すると, 雑音音声のベースラインモデルと比較して, LibriSpeechテストクリーンで23.3%, 他で13.2%の性能向上が見られた。
- 参考スコア(独自算出の注目度): 7.751856268560216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Noise robustness in speech foundation models (SFMs) has been a critical challenge, as most models are primarily trained on clean data and experience performance degradation when the models are exposed to noisy speech. To address this issue, we propose HuBERT-VIC, a noise-robust SFM with variance, in-variance, and covariance regularization (VICReg) objectives. These objectives adjust the statistics of noisy speech representations, enabling the model to capture diverse acoustic characteristics and improving the generalization ability across different types of noise. When applied to HuBERT, our model shows relative performance improvements of 23.3% on LibriSpeech test-clean and 13.2% on test-other, compared to the baseline model pre-trained on noisy speech.
- Abstract(参考訳): 音声基礎モデル(SFM)のノイズロバスト性は、ほとんどのモデルは、ノイズの多い音声にさらされたときに、クリーンなデータとパフォーマンス劣化を主に訓練しているため、重要な課題である。
この問題に対処するため,HuBERT-VICを提案し,分散性,分散性,共分散正則化(VICReg)を目標としたノイズローバストSFMを提案する。
これらの目的は雑音の表現の統計を調整し、モデルが様々な音響特性を捕捉し、様々な種類の雑音に対する一般化能力を向上させる。
HuBERTに適用すると, 雑音音声のベースラインモデルと比較して, LibriSpeechテストクリーンで23.3%, 他で13.2%の性能向上が見られた。
関連論文リスト
- Benchmarking Children's ASR with Supervised and Self-supervised Speech Foundation Models [23.383924361298874]
音声基礎モデル(SFM)は、教師付き(例えば、Whisper)や自己監督型(例えば、WavLM)の様々な音声タスクに対して最先端の結果を得た。
論文 参考訳(メタデータ) (2024-06-15T05:13:19Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - Unsupervised speech enhancement with deep dynamical generative speech
and noise models [26.051535142743166]
本研究は、クリーン音声モデルとして動的変分オートエンコーダ(DVAE)、ノイズモデルとして非負行列分解(NMF)を用いた教師なし音声強調に関する以前の研究に基づいている。
本研究では,NMFノイズモデルにDVAE潜伏変数,雑音観測,あるいはその両方に依存する深部動的生成モデル(DDGM)を置き換えることを提案する。
論文 参考訳(メタデータ) (2023-06-13T14:52:35Z) - Pre-trained Model Representations and their Robustness against Noise for
Speech Emotion Analysis [6.382013662443799]
我々は、事前訓練されたモデルからのマルチモーダル融合表現を用いて、最先端の音声感情推定を生成する。
その結果,語彙表現は音響表現に比べて歪みに対して頑健であることが判明した。
論文 参考訳(メタデータ) (2023-03-03T18:22:32Z) - CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement [5.766499647507758]
さらに、時間周波数(TF)領域における音声強調(SE)のためのコンバータベース計量生成逆ネットワーク(CMGAN)モデルを開発した。
以上の結果から,CMGANは3つの主要な音声強調課題において,既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-22T15:50:21Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Variational Autoencoder for Speech Enhancement with a Noise-Aware
Encoder [30.318947721658862]
本稿では,ノイズ対応エンコーダを用いて,学習段階での雑音情報を含むことを提案する。
提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。
論文 参考訳(メタデータ) (2021-02-17T11:40:42Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。