論文の概要: Unsupervised Speech Enhancement using Data-defined Priors
- arxiv url: http://arxiv.org/abs/2509.22942v1
- Date: Fri, 26 Sep 2025 21:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.94616
- Title: Unsupervised Speech Enhancement using Data-defined Priors
- Title(参考訳): データ定義プリミティブを用いた教師なし音声強調
- Authors: Dominik Klement, Matthew Maciejewski, Sanjeev Khudanpur, Jan Černocký, Lukáš Burget,
- Abstract要約: 教師なし音声強調のための新しいデュアルブランチエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,教師なし音声強調手法に匹敵する性能を示す。
- 参考スコア(独自算出の注目度): 15.704587282459315
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The majority of deep learning-based speech enhancement methods require paired clean-noisy speech data. Collecting such data at scale in real-world conditions is infeasible, which has led the community to rely on synthetically generated noisy speech. However, this introduces a gap between the training and testing phases. In this work, we propose a novel dual-branch encoder-decoder architecture for unsupervised speech enhancement that separates the input into clean speech and residual noise. Adversarial training is employed to impose priors on each branch, defined by unpaired datasets of clean speech and, optionally, noise. Experimental results show that our method achieves performance comparable to leading unsupervised speech enhancement approaches. Furthermore, we demonstrate the critical impact of clean speech data selection on enhancement performance. In particular, our findings reveal that performance may appear overly optimistic when in-domain clean speech data are used for prior definition -- a practice adopted in previous unsupervised speech enhancement studies.
- Abstract(参考訳): ディープラーニングに基づく音声強調手法の大多数は、ペア化された清潔な音声データを必要とする。
現実の環境でそのようなデータを大規模に収集することは不可能であり、それによってコミュニティは合成された騒々しい音声に頼るようになった。
しかし、これはトレーニングフェーズとテストフェーズの間にギャップをもたらします。
本研究では,クリーン音声と残雑音に分離した教師なし音声強調のための,新しいデュアルブランチ・エンコーダ・デコーダアーキテクチャを提案する。
敵対的トレーニングは、クリーン音声の未ペアデータセットとオプションでノイズによって定義された各ブランチに事前を課すために使用される。
実験結果から,提案手法は教師なし音声強調手法に匹敵する性能が得られることがわかった。
さらに,クリーン音声データ選択が強調性能に与える影響を実証した。
特に,従来の教師なし音声強調研究で採用されていた,ドメイン内クリーン音声データが事前定義に使用される場合,性能が過度に楽観的になる可能性が示唆された。
関連論文リスト
- Speech Unlearning [14.755831733659699]
音声タスクのための機械学習を導入し,新しい研究課題について紹介する。
本研究の目的は、訓練された音声モデルから特定のデータの影響を、完全に再訓練することなく効率的に効果的に除去することである。
プライバシー保護、時代遅れまたはノイズの多いデータの削除、バイアス軽減に重要な応用がある。
論文 参考訳(メタデータ) (2025-06-01T06:04:16Z) - SECP: A Speech Enhancement-Based Curation Pipeline For Scalable
Acquisition Of Clean Speech [0.0]
音声強調に基づくCuration Pipeline(SECP)は、クリーン音声をオンボードするフレームワークとして機能する。
このクリーンな音声は、音声強調モデルを訓練し、元のデータセットをさらに洗練することができる。
比較平均世論スコア(CMOS)に基づく主観的テストを通して、精細データの最高値と最低値が、原データよりも知覚的に優れていることを示す。
論文 参考訳(メタデータ) (2024-02-19T19:38:37Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - Adversarial Representation Learning for Robust Privacy Preservation in
Audio [11.409577482625053]
音響イベント検出システムは、ユーザーまたはその周辺に関する機密情報を不注意に明らかにすることができる。
本稿では,音声記録の表現を学習するための新しい逆学習法を提案する。
提案手法は,プライバシ対策を伴わないベースライン手法と,事前の逆行訓練法とを併用して評価する。
論文 参考訳(メタデータ) (2023-04-29T08:39:55Z) - On monoaural speech enhancement for automatic recognition of real noisy
speech using mixture invariant training [33.79711018198589]
既存の混合不変訓練基準を拡張して、未ペア音声と実雑音データの両方を利用する。
実雑音音声から分離した音声の品質を向上させるためには, 未ペアクリーン音声が不可欠であることがわかった。
提案手法は、処理成果物を軽減するために、処理された信号と処理されていない信号のリミックスも行う。
論文 参考訳(メタデータ) (2022-05-03T19:37:58Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。