論文の概要: TS-URGENet: A Three-stage Universal Robust and Generalizable Speech Enhancement Network
- arxiv url: http://arxiv.org/abs/2505.18533v1
- Date: Sat, 24 May 2025 05:53:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.48466
- Title: TS-URGENet: A Three-stage Universal Robust and Generalizable Speech Enhancement Network
- Title(参考訳): TS-URGENet:3段階のユニバーサルロバストと一般化可能な音声強調ネットワーク
- Authors: Xiaobin Rong, Dahan Wang, Qinwen Hu, Yushi Wang, Yuxiang Hu, Jing Lu,
- Abstract要約: TS-URGENetは3段階のユニバーサル、ロバスト、一般化可能な音声強調ネットワークである。
システムは、充填ステージ、分離ステージ、修復ステージからなる、新しい3段階アーキテクチャを採用している。
- 参考スコア(独自算出の注目度): 12.172480880745411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Universal speech enhancement aims to handle input speech with different distortions and input formats. To tackle this challenge, we present TS-URGENet, a Three-Stage Universal, Robust, and Generalizable speech Enhancement Network. To address various distortions, the proposed system employs a novel three-stage architecture consisting of a filling stage, a separation stage, and a restoration stage. The filling stage mitigates packet loss by preliminarily filling lost regions under noise interference, ensuring signal continuity. The separation stage suppresses noise, reverberation, and clipping distortion to improve speech clarity. Finally, the restoration stage compensates for bandwidth limitation, codec artifacts, and residual packet loss distortion, refining the overall speech quality. Our proposed TS-URGENet achieved outstanding performance in the Interspeech 2025 URGENT Challenge, ranking 2nd in Track 1.
- Abstract(参考訳): ユニバーサル音声強調は、異なる歪みと入力形式で入力音声を扱うことを目的としている。
この課題に対処するために、TS-URGENet, Three-Stage Universal, Robust, Generalizable Speech Enhancement Networkを提案する。
種々の歪みに対処するため,本システムでは,充填ステージ,分離ステージ,復元ステージからなる新しい3段階アーキテクチャを採用している。
充填工程は、ノイズ干渉下で損失領域を予め充填することによりパケット損失を軽減し、信号継続性を確保する。
分離段階は、雑音、残響、クリップ歪みを抑制し、音声明瞭度を向上させる。
最後に、復元段階は、帯域幅制限、コーデックアーティファクト、残パケット損失歪みを補償し、全体の音声品質を改善させる。
提案したTS-URGENetは,トラック1の2位にランクインした2025 URGENT Challengeにおいて,優れたパフォーマンスを達成した。
関連論文リスト
- TRNet: Two-level Refinement Network leveraging Speech Enhancement for Noise Robust Speech Emotion Recognition [29.756961194844717]
提案したTRNetは,一致した雑音環境と一致しない雑音環境の両方において,提案方式の堅牢性を大幅に向上させる。
その結果,提案方式は,一致した環境と一致しない環境の両方において,提案方式のロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-19T16:09:17Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Bridging the Granularity Gap for Acoustic Modeling [32.453554287092054]
トランスフォーマーは音声のデファクトスタンダードになっているが、きめ細かいフレームレベルの特徴に基づくモデリングは依然としてオープンな課題である。
より完全な意味情報を含む粗粒度単位に徐々に音響特徴を圧縮するtextitProgressive Down-Sampling (PDS)を提案する。
論文 参考訳(メタデータ) (2023-05-27T03:52:52Z) - ReVISE: Self-Supervised Speech Resynthesis with Visual Input for
Universal and Generalized Speech Enhancement [40.29155338515071]
ReVISEは、Wildビデオ音声合成のための最初の高品質なモデルである。
単一のモデルで全てのLRS3オーディオ視覚強調タスクにおいて優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-21T21:36:52Z) - Universal Speech Enhancement with Score-based Diffusion [21.294665965300922]
本稿では,55種類の歪みに同時に対処するユニバーサル音声強調システムを提案する。
提案手法は,スコアベース拡散を用いた生成モデルとマルチレゾリューション・コンディショニング・ネットワークから構成される。
提案手法は,専門家が実施した主観的テストにおいて,技量を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-06-07T07:32:32Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。