論文の概要: Universal Speech Enhancement with Score-based Diffusion
- arxiv url: http://arxiv.org/abs/2206.03065v1
- Date: Tue, 7 Jun 2022 07:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 14:31:44.153791
- Title: Universal Speech Enhancement with Score-based Diffusion
- Title(参考訳): スコア拡散を用いたユニバーサル音声強調
- Authors: Joan Serr\`a, Santiago Pascual, Jordi Pons, R. Oguz Araz, Davide
Scaini
- Abstract要約: 本稿では,55種類の歪みに同時に対処するユニバーサル音声強調システムを提案する。
提案手法は,スコアベース拡散を用いた生成モデルとマルチレゾリューション・コンディショニング・ネットワークから構成される。
提案手法は,専門家が実施した主観的テストにおいて,技量を著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 21.294665965300922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Removing background noise from speech audio has been the subject of
considerable research and effort, especially in recent years due to the rise of
virtual communication and amateur sound recording. Yet background noise is not
the only unpleasant disturbance that can prevent intelligibility: reverb,
clipping, codec artifacts, problematic equalization, limited bandwidth, or
inconsistent loudness are equally disturbing and ubiquitous. In this work, we
propose to consider the task of speech enhancement as a holistic endeavor, and
present a universal speech enhancement system that tackles 55 different
distortions at the same time. Our approach consists of a generative model that
employs score-based diffusion, together with a multi-resolution conditioning
network that performs enhancement with mixture density networks. We show that
this approach significantly outperforms the state of the art in a subjective
test performed by expert listeners. We also show that it achieves competitive
objective scores with just 4-8 diffusion steps, despite not considering any
particular strategy for fast sampling. We hope that both our methodology and
technical contributions encourage researchers and practitioners to adopt a
universal approach to speech enhancement, possibly framing it as a generative
task.
- Abstract(参考訳): 音声音声からの背景雑音の除去は、特に近年、仮想コミュニケーションやアマチュア録音の台頭により、かなりの研究と努力の対象となっている。
しかし、残響、クリップ、コーデックアーティファクト、問題のある等化、帯域幅の制限、一貫性のない大音量等が同様に乱れ、ユビキタスである。
本研究では,音声強調の課題を全体的取り組みとして考慮し,同時に55種類の歪みに対処する普遍的な音声強調システムを提案する。
提案手法は,スコアベース拡散を用いた生成モデルと,混合密度ネットワークを用いて拡張を行うマルチレゾリューションコンディショニングネットワークから構成される。
提案手法は,専門家が実施した主観的テストにおいて,技量を著しく上回ることを示す。
また,高速サンプリングの具体的な戦略を考慮せずに,わずか4~8の拡散ステップで競合目標スコアを達成できることを示す。
私たちの方法論と技術的貢献の両方が、研究者や実践者に対して、音声強調に普遍的なアプローチを採用するように促すことを願っています。
関連論文リスト
- FINALLY: fast and universal speech enhancement with studio-like quality [7.207284147264852]
本稿では,様々な歪みを含む実世界の録音における音声強調の課題に対処する。
本研究では, 対人訓練の安定性を高めるために, 知覚喪失のための様々な特徴抽出器について検討した。
我々は、WavLMに基づく知覚損失をMS-STFT逆行訓練パイプラインに統合し、音声強調モデルの効果的で安定した訓練手順を作成する。
論文 参考訳(メタデータ) (2024-10-08T11:16:03Z) - TRNet: Two-level Refinement Network leveraging Speech Enhancement for Noise Robust Speech Emotion Recognition [29.756961194844717]
提案したTRNetは,一致した雑音環境と一致しない雑音環境の両方において,提案方式の堅牢性を大幅に向上させる。
その結果,提案方式は,一致した環境と一致しない環境の両方において,提案方式のロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-19T16:09:17Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Analysing Diffusion-based Generative Approaches versus Discriminative
Approaches for Speech Restoration [16.09633286837904]
生成拡散モデルの性能と異なる音声復元作業における識別的アプローチを系統的に比較する。
生成的アプローチは、すべてのタスクにおいて、識別的アプローチよりも全世界的に優れていることを観察する。
論文 参考訳(メタデータ) (2022-11-04T12:06:14Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - HiFi-GAN: High-Fidelity Denoising and Dereverberation Based on Speech
Deep Features in Adversarial Networks [29.821666380496637]
HiFi-GANは録音された音声をスタジオで録音されたかのように音に変換する。
強調音声の知覚的品質を改善するために、識別器の深い特徴マッチング損失に依存している。
客観的および主観的な実験において、最先端のベースライン法を著しく上回る。
論文 参考訳(メタデータ) (2020-06-10T07:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。