論文の概要: Mask2Flow-TSE: Two-Stage Target Speaker Extraction with Masking and Flow Matching
- arxiv url: http://arxiv.org/abs/2603.12837v1
- Date: Fri, 13 Mar 2026 09:40:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.029679
- Title: Mask2Flow-TSE: Two-Stage Target Speaker Extraction with Masking and Flow Matching
- Title(参考訳): Mask2Flow-TSE:マスキングとフローマッチングによる2段階ターゲット話者抽出
- Authors: Junwon Moon, Hyunjin Choi, Hansol Park, Heeseung Kim, Kyuhong Shim,
- Abstract要約: ターゲット話者抽出(TSE)は、基準発話の重なり合う音声の混合から対象話者の声を抽出する。
識別法は、高速な推測のために時間周波数マスキングを適用するが、しばしばターゲット信号を過度に抑圧する。
生成法は、多数の反復的なステップを犠牲にして高品質な音声を合成する。
両パラダイムの長所を組み合わせた2段階のフレームワークであるMask2Flow-TSEを提案する。
- 参考スコア(独自算出の注目度): 17.73633095059539
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Target speaker extraction (TSE) extracts the target speaker's voice from overlapping speech mixtures given a reference utterance. Existing approaches typically fall into two categories: discriminative and generative. Discriminative methods apply time-frequency masking for fast inference but often over-suppress the target signal, while generative methods synthesize high-quality speech at the cost of numerous iterative steps. We propose Mask2Flow-TSE, a two-stage framework combining the strengths of both paradigms. The first stage applies discriminative masking for coarse separation, and the second stage employs flow matching to refine the output toward target speech. Unlike generative approaches that synthesize speech from Gaussian noise, our method starts from the masked spectrogram, enabling high-quality reconstruction in a single inference step. Experiments show that Mask2Flow-TSE achieves comparable performance to existing generative TSE methods with approximately 85M parameters.
- Abstract(参考訳): ターゲット話者抽出(TSE)は、基準発話の重なり合う音声の混合から対象話者の声を抽出する。
既存のアプローチは通常、識別と生成の2つのカテゴリに分類される。
識別法は、高速な推測のために時間周波数マスキングを適用するが、しばしばターゲット信号を過度に抑圧する一方、生成法は多数の反復ステップを犠牲にして高品質な音声を合成する。
両パラダイムの長所を組み合わせた2段階のフレームワークであるMask2Flow-TSEを提案する。
第1段階は粗い分離のために識別マスクを適用し、第2段階はフローマッチングを用いて目標音声に対する出力を洗練させる。
ガウス雑音から音声を合成する生成的アプローチとは異なり、この手法はマスク付き分光法から始まり、単一の推論ステップで高品質な再構成を可能にする。
実験の結果,Mask2Flow-TSEは,約85Mのパラメータを持つ既存の生成的TSE法に匹敵する性能を示した。
関連論文リスト
- FlowTSE: Target Speaker Extraction with Flow Matching [16.054014378418316]
FlowTSEは、条件付きフローマッチングに基づく、シンプルだが効果的なTSEアプローチである。
位相再構成が重要であるタスクに対しては、混合信号の複雑なSTFTを条件とした新しいボコーダを提案する。
論文 参考訳(メタデータ) (2025-05-20T15:01:30Z) - Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - DDTSE: Discriminative Diffusion Model for Target Speech Extraction [62.422291953387955]
ターゲット音声抽出(DDTSE)のための識別拡散モデルを提案する。
拡散モデルと同じ前方プロセスを適用し, 判別法と同様の復元損失を利用する。
モデルトレーニング中に推論過程をエミュレートするための2段階のトレーニング戦略を考案する。
論文 参考訳(メタデータ) (2023-09-25T04:58:38Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Speech segmentation using multilevel hybrid filters [0.0]
マルチレベルハイブリッド(平均/最小)フィルタ(MHF)に基づく音声分割の新しい手法を提案する。
提案手法はスペクトル変化に基づいて,音声を均質な音響セグメントに分割することを目的としている。
このアルゴリズムは、音声合成された音声コーダに使われ、良好な結果が得られている。
論文 参考訳(メタデータ) (2022-02-24T00:03:02Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。