論文の概要: Masked Autoencoders as Universal Speech Enhancer
- arxiv url: http://arxiv.org/abs/2602.02413v1
- Date: Mon, 02 Feb 2026 18:13:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.349423
- Title: Masked Autoencoders as Universal Speech Enhancer
- Title(参考訳): ユニバーサル音声エンハンサーとしてのマスクオートエンコーダ
- Authors: Rajalaxmi Rajagopalan, Ritwik Giri, Zhiqiang Tang, Kyu Han,
- Abstract要約: マスク付きオートエンコーダをベースとしたユニバーサル音声エンハンサーは、自己教師方式で訓練される。
提案手法は,ドメイン内およびドメイン外両方の評価データセットに対して,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 5.670678893351032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised speech enhancement methods have been very successful. However, in practical scenarios, there is a lack of clean speech, and self-supervised learning-based (SSL) speech enhancement methods that offer comparable enhancement performance and can be applied to other speech-related downstream applications are desired. In this work, we develop a masked autoencoder based universal speech enhancer that is agnostic to the type of distortion affecting speech, can handle multiple distortions simultaneously, and is trained in a self-supervised manner. An augmentation stack adds further distortions to the noisy input data. The masked autoencoder model learns to remove the added distortions along with reconstructing the masked regions of the spectrogram during pre-training. The pre-trained embeddings are then used by fine-tuning models trained on a small amount of paired data for specific downstream tasks. We evaluate the pre-trained features for denoising and dereverberation downstream tasks. We explore different augmentations (like single or multi-speaker) in the pre-training augmentation stack and the effect of different noisy input feature representations (like $log1p$ compression) on pre-trained embeddings and downstream fine-tuning enhancement performance. We show that the proposed method not only outperforms the baseline but also achieves state-of-the-art performance for both in-domain and out-of-domain evaluation datasets.
- Abstract(参考訳): 改良された音声強調法は非常に成功した。
しかし、現実的なシナリオでは、クリーンな音声が欠如しており、自己教師付き学習ベース(SSL)音声強調手法は、同等の強化性能を提供し、他の音声関連ダウンストリームアプリケーションに適用することが望まれる。
本研究では,マスク付きオートエンコーダをベースとしたユニバーサル音声エンハンサーを開発し,音声の歪みの種類に依存しないと同時に,複数の歪みを同時に処理し,自己指導型で訓練する。
拡張スタックは、ノイズの多い入力データにさらなる歪みを追加する。
マスク付きオートエンコーダモデルは、事前トレーニング中に分光図のマスク付き領域を再構成し、追加の歪みを取り除くことを学習する。
事前訓練された埋め込みは、特定の下流タスクのために少量のペアデータに基づいて訓練された微調整モデルによって使用される。
本研究は,下流タスクのデノベーションとデノベーションのための事前学習機能について評価する。
我々は、事前学習の強化スタックにおける異なる拡張(シングルやマルチスピーカーなど)と、事前学習の埋め込みおよび下流の微調整性能に対する異なるノイズ入力特徴表現($log1p$圧縮など)の効果について検討する。
本稿では,提案手法がベースラインを上回り,ドメイン内およびドメイン外両方の評価データセットに対して最先端の性能を達成することを示す。
関連論文リスト
- Task-Specific Audio Coding for Machines: Machine-Learned Latent Features Are Codes for That Machine [16.046905753937384]
本研究では、すでに訓練済みの音声/オーディオ下流モデルの任意の中間特徴表現を圧縮・定量化できる効率的なACoM法を提案する。
提案手法では,残差ベクトル量子化(RVQ)損失とともにタスク固有の損失ガイダンスを採用し,ダウンストリームモデルの性能を最小限に抑えた超低コーデック(200bps未満)を提供する。
論文 参考訳(メタデータ) (2025-07-17T00:32:07Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Self-supervised Rewiring of Pre-trained Speech Encoders: Towards Faster
Fine-tuning with Less Labels in Speech Processing [66.92823764664206]
我々は、事前訓練された音声エンコーダを精査し、タスク固有のラベルを必要とせず、その表現空間を再構成する。
6つの音声処理タスクに関する実験では,タスクの微調整と一貫したタスク改善の間に顕著な収束速度が得られた。
論文 参考訳(メタデータ) (2022-10-24T08:27:09Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative Models [40.239246150027235]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Data Augmentation based Consistency Contrastive Pre-training for
Automatic Speech Recognition [18.303072203996347]
自動音声認識(ASR)タスクにおいて、自己教師付き音響事前学習は驚くべき結果を得た。
音響事前学習法の多くは、コントラスト学習を用いて音響表現を学習する。
本稿では,音声事前学習のためのデータ拡張を利用して,新しいコントラスト学習法(CCL)を設計する。
論文 参考訳(メタデータ) (2021-12-23T13:23:17Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。