論文の概要: SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline
- arxiv url: http://arxiv.org/abs/2505.19314v1
- Date: Sun, 25 May 2025 21:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.048981
- Title: SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline
- Title(参考訳): SoloSpeech:カスケード生成パイプラインによるターゲット音声抽出における信頼性と品質の向上
- Authors: Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak,
- Abstract要約: SoloSpeechは、圧縮、抽出、再構築、修正プロセスを統合するカスケード生成パイプラインである。
ターゲット音声抽出および音声分離タスクにおける最先端の知性および品質を実現する。
- 参考スコア(独自算出の注目度): 29.85417427778784
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Target Speech Extraction (TSE) aims to isolate a target speaker's voice from a mixture of multiple speakers by leveraging speaker-specific cues, typically provided as auxiliary audio (a.k.a. cue audio). Although recent advancements in TSE have primarily employed discriminative models that offer high perceptual quality, these models often introduce unwanted artifacts, reduce naturalness, and are sensitive to discrepancies between training and testing environments. On the other hand, generative models for TSE lag in perceptual quality and intelligibility. To address these challenges, we present SoloSpeech, a novel cascaded generative pipeline that integrates compression, extraction, reconstruction, and correction processes. SoloSpeech features a speaker-embedding-free target extractor that utilizes conditional information from the cue audio's latent space, aligning it with the mixture audio's latent space to prevent mismatches. Evaluated on the widely-used Libri2Mix dataset, SoloSpeech achieves the new state-of-the-art intelligibility and quality in target speech extraction and speech separation tasks while demonstrating exceptional generalization on out-of-domain data and real-world scenarios.
- Abstract(参考訳): ターゲット音声抽出(TSE)は、通常補助音声(cue audio)として提供される話者固有の手がかりを活用することで、ターゲット話者の声を複数の話者の混合から分離することを目的としている。
TSEの最近の進歩は、主に高い知覚品質を提供する差別モデルを採用しているが、これらのモデルは、しばしば望ましくない人工物を導入し、自然性を低減し、訓練とテスト環境の相違に敏感である。
一方,TSEラグの知覚的品質と知性における生成モデルについて検討した。
これらの課題に対処するために、圧縮、抽出、再構築、修正プロセスを統合する新しいケースケード生成パイプラインであるSoloSpeechを紹介する。
SoloSpeechは、キューオーディオの潜時空間からの条件情報を利用して、混合オーディオの潜時空間と整列してミスマッチを防止する、話者埋め込み不要なターゲット抽出器を備えている。
広く使われているLibri2Mixデータセットに基づいて、SoloSpeechは、ドメイン外のデータと実世界のシナリオに例外的な一般化を示しながら、ターゲット音声抽出と音声分離タスクにおける最先端の知性および品質を達成する。
関連論文リスト
- Target Speaker Extraction through Comparing Noisy Positive and Negative Audio Enrollments [34.67934887761352]
雑音の多い音声の例から対象話者の特徴を抽出することを検討した。
本研究では,複数の話者が存在する場合のターゲット話者抽出に着目した。
実験により,提案課題に対するモデルアーキテクチャの有効性と事前学習法の有効性が示された。
論文 参考訳(メタデータ) (2025-02-23T15:33:44Z) - USAT: A Universal Speaker-Adaptive Text-to-Speech Approach [11.022840133207788]
目に見えない、データセット外話者のために、人生のようなスピーチを無視するという課題は、重要で未解決のままである。
ゼロショットアプローチは、強いアクセントを持つ話者の声を再現するために、一般化性能が不十分である。
非常に多様なアクセントを再現することができず、保存の負担が大きくなり、過度なフィットや破滅的な忘れ込みのリスクが生じる。
提案手法は,ゼロショット話者適応戦略と少数ショット話者適応戦略を一体化したものである。
論文 参考訳(メタデータ) (2024-04-28T06:50:55Z) - DDTSE: Discriminative Diffusion Model for Target Speech Extraction [62.422291953387955]
ターゲット音声抽出(DDTSE)のための識別拡散モデルを提案する。
拡散モデルと同じ前方プロセスを適用し, 判別法と同様の復元損失を利用する。
モデルトレーニング中に推論過程をエミュレートするための2段階のトレーニング戦略を考案する。
論文 参考訳(メタデータ) (2023-09-25T04:58:38Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Topic Identification For Spontaneous Speech: Enriching Audio Features
With Embedded Linguistic Information [10.698093106994804]
音声からの従来の話題識別ソリューションは、音声認識システム(ASR)に依存して書き起こしを生成する。
テキストと音声を共同で活用する,音声のみとハイブリッド技術の比較を行った。
フィンランドの自然発話で評価されたモデルは、純粋な音声ベースのソリューションが、ASRコンポーネントが利用できない場合に実行可能な選択肢であることを示している。
論文 参考訳(メタデータ) (2023-07-21T09:30:46Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。