論文の概要: Robust Target Speaker Diarization and Separation via Augmented Speaker Embedding Sampling
- arxiv url: http://arxiv.org/abs/2508.06393v1
- Date: Fri, 08 Aug 2025 15:24:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.284365
- Title: Robust Target Speaker Diarization and Separation via Augmented Speaker Embedding Sampling
- Title(参考訳): 拡張話者埋め込みサンプリングによるロバストターゲット話者ダイアリゼーションと分離
- Authors: Md Asif Jalal, Luca Remaggi, Vasileios Moschopoulos, Thanasis Kotsiopoulos, Vandana Rajan, Karthikeyan Saravanan, Anastasis Drosou, Junho Heo, Hyuk Oh, Seokyeong Jeong,
- Abstract要約: 本研究は、ターゲット話者の埋め込みを自動的に識別し、発話分離とダイアリゼーションを同時に行うための新しいアプローチを導入する。
提案モデルでは,頑健な話者表現特徴を学習するための2段階学習パイプラインを採用している。
重なり合う音声フレームにおけるダイアリゼーション精度を高めるために, 重なり合うスペクトル損失関数を提案する。
- 参考スコア(独自算出の注目度): 4.875137823752148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional speech separation and speaker diarization approaches rely on prior knowledge of target speakers or a predetermined number of participants in audio signals. To address these limitations, recent advances focus on developing enrollment-free methods capable of identifying targets without explicit speaker labeling. This work introduces a new approach to train simultaneous speech separation and diarization using automatic identification of target speaker embeddings, within mixtures. Our proposed model employs a dual-stage training pipeline designed to learn robust speaker representation features that are resilient to background noise interference. Furthermore, we present an overlapping spectral loss function specifically tailored for enhancing diarization accuracy during overlapped speech frames. Experimental results show significant performance gains compared to the current SOTA baseline, achieving 71% relative improvement in DER and 69% in cpWER.
- Abstract(参考訳): 従来の音声分離と話者ダイアリゼーションアプローチは、ターゲット話者の事前知識や、音声信号の所定数の参加者に依存している。
これらの制限に対処するため、近年の進歩は、明示的な話者ラベリングを伴わずにターゲットを識別できる登録不要な手法の開発に焦点が当てられている。
本研究は,話者の混在を自動的に識別し,発話分離とダイアリゼーションを同時に行うための新しい手法を提案する。
提案モデルでは、背景雑音干渉に耐性のある頑健な話者表現特徴を学習するための2段階学習パイプラインを用いている。
さらに、重畳された音声フレームにおけるダイアリゼーション精度を高めるために、特別に調整された重畳スペクトル損失関数を提案する。
実験結果から,現在のSOTAベースラインと比較して有意な性能向上を示し,DERは71%,cpWERは69%であった。
関連論文リスト
- Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.17360668423001]
重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。
本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。
実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-05-29T07:47:48Z) - Target Speaker Extraction through Comparing Noisy Positive and Negative Audio Enrollments [34.67934887761352]
従来,雑音による話者特性の抽出について検討されてきた。
そこで本研究では,雑音によるターゲット話者情報を符号化する新しい学習戦略について検討する。
実験により,従来よりも2.1dB以上のSI-SNRiを実現するモデルアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2025-02-23T15:33:44Z) - Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios [0.9094127664014627]
エンドツーエンドのニューラルスピーカダイアリゼーションシステムは、音声重複を効果的に処理しながら、話者ダイアリゼーションタスクに対処することができる。
本研究は,話者識別能力を高めるため,エンド・ツー・エンドシステムへの話者情報埋め込みの導入について検討する。
論文 参考訳(メタデータ) (2024-07-01T14:26:28Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - Augmentation adversarial training for self-supervised speaker
recognition [49.47756927090593]
話者ラベルのない頑健な話者認識モデルを訓練する。
VoxCelebとVOiCESデータセットの実験は、セルフスーパービジョンを使用した以前の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-07-23T15:49:52Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。