論文の概要: Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation
- arxiv url: http://arxiv.org/abs/2203.16104v1
- Date: Wed, 30 Mar 2022 07:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 16:57:42.730584
- Title: Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation
- Title(参考訳): ドメイン適応による自己教師付き音声処理タスクの歪みロバスト性の改善
- Authors: Kuan Po Huang, Yu-Kuan Fu, Yu Zhang, Hung-yi Lee
- Abstract要約: 音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
- 参考スコア(独自算出の注目度): 60.26511271597065
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech distortions are a long-standing problem that degrades the performance
of supervisely trained speech processing models. It is high time that we
enhance the robustness of speech processing models to obtain good performance
when encountering speech distortions while not hurting the original performance
on clean speech. In this work, we propose to improve the robustness of speech
processing models by domain adversarial training (DAT). We conducted
experiments based on the SUPERB framework on five different speech processing
tasks. In case we do not always have knowledge of the distortion types for
speech data, we analyzed the binary-domain and multi-domain settings, where the
former treats all distorted speech as one domain, and the latter views
different distortions as different domains. In contrast to supervised training
methods, we obtained promising results in target domains where speech data is
distorted with different distortions including new unseen distortions
introduced during testing.
- Abstract(参考訳): 音声歪みは、監督訓練された音声処理モデルの性能を劣化させる長年の問題である。
クリーン音声の本来の性能を損なわずに、音声歪みに遭遇する際の良好な性能を得るために、音声処理モデルの堅牢性を向上する時が来た。
本研究では,DAT(Domain Adversarial Training)による音声処理モデルの堅牢性向上を提案する。
5種類の音声処理タスクにおいて,SUPERBフレームワークを用いた実験を行った。
音声データの歪みのタイプを常に把握していない場合、前者が全ての歪んだ音声を1つの領域として扱い、後者が異なる領域として異なる歪みを捉えているバイナリドメインとマルチドメインの設定を分析した。
教師あり学習法とは対照的に,実験中に導入された新たな未知の歪みを含む異なる歪みで音声データを歪ませる対象領域において,有望な結果を得た。
関連論文リスト
- Objective and subjective evaluation of speech enhancement methods in the UDASE task of the 7th CHiME challenge [19.810337081901178]
クリーン音声とノイズ信号の混合を人工的に生成し,音声強調のための教師付きモデルを訓練する。
この相違は、テストドメインが合成トレーニングドメインと大きく異なる場合、性能が低下する可能性がある。
第7回CiMEチャレンジのUDASEタスクは、テスト領域からの現実的なノイズの多い音声記録を活用することを目的としている。
論文 参考訳(メタデータ) (2024-02-02T13:45:42Z) - Diffusion-based speech enhancement with a weighted generative-supervised
learning loss [0.0]
拡散に基づく生成モデルは近年,音声強調(SE)において注目を集めている。
そこで本研究では,従来の拡散訓練目標を平均二乗誤差(MSE)損失で拡張することを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:35Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Unsupervised Noise adaptation using Data Simulation [21.866522173387715]
本稿では,逆クリーン・ノイズ変換を効率よく学習するための生成逆ネットワークに基づく手法を提案する。
実験結果から,本手法はトレーニングセットとテストセット間のドメインミスマッチを効果的に軽減することが示された。
論文 参考訳(メタデータ) (2023-02-23T12:57:20Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - On monoaural speech enhancement for automatic recognition of real noisy
speech using mixture invariant training [33.79711018198589]
既存の混合不変訓練基準を拡張して、未ペア音声と実雑音データの両方を利用する。
実雑音音声から分離した音声の品質を向上させるためには, 未ペアクリーン音声が不可欠であることがわかった。
提案手法は、処理成果物を軽減するために、処理された信号と処理されていない信号のリミックスも行う。
論文 参考訳(メタデータ) (2022-05-03T19:37:58Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。