論文の概要: Target Speaker Extraction through Comparing Noisy Positive and Negative Audio Enrollments
- arxiv url: http://arxiv.org/abs/2502.16611v2
- Date: Tue, 17 Jun 2025 06:10:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 15:22:19.934532
- Title: Target Speaker Extraction through Comparing Noisy Positive and Negative Audio Enrollments
- Title(参考訳): 雑音肯定的および否定的音声入力の比較によるターゲット話者抽出
- Authors: Shitong Xu, Yiyuan Yang, Niki Trigoni, Andrew Markham,
- Abstract要約: 従来,雑音による話者特性の抽出について検討されてきた。
そこで本研究では,雑音によるターゲット話者情報を符号化する新しい学習戦略について検討する。
実験により,従来よりも2.1dB以上のSI-SNRiを実現するモデルアーキテクチャの有効性が示された。
- 参考スコア(独自算出の注目度): 34.67934887761352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Target speaker extraction focuses on isolating a specific speaker's voice from an audio mixture containing multiple speakers. To provide information about the target speaker's identity, prior works have utilized clean audio samples as conditioning inputs. However, such clean audio examples are not always readily available. For instance, obtaining a clean recording of a stranger's voice at a cocktail party without leaving the noisy environment is generally infeasible. Limited prior research has explored extracting the target speaker's characteristics from noisy enrollments, which may contain overlapping speech from interfering speakers. In this work, we explore a novel enrollment strategy that encodes target speaker information from the noisy enrollment by comparing segments where the target speaker is talking (Positive Enrollments) with segments where the target speaker is silent (Negative Enrollments). Experiments show the effectiveness of our model architecture, which achieves over 2.1 dB higher SI-SNRi compared to prior works in extracting the monaural speech from the mixture of two speakers. Additionally, the proposed two-stage training strategy accelerates convergence, reducing the number of optimization steps required to reach 3 dB SNR by 60\%. Overall, our method achieves state-of-the-art performance in the monaural target speaker extraction conditioned on noisy enrollments.
- Abstract(参考訳): ターゲット話者抽出は、複数の話者を含むオーディオ混合物から特定の話者の声を分離することに焦点を当てる。
従来、清潔なオーディオサンプルを条件入力として利用していたターゲット話者の身元に関する情報を提供する。
しかし、このようなクリーンなオーディオの例は必ずしも容易には利用できない。
例えば、騒がしい環境を離れることなく、カクテルパーティーで見知らぬ人の声をきれいに録音することは、一般的に不可能である。
限定的な先行研究により、干渉話者から重なり合う音声を含むうる雑音の入学者から対象話者の特徴を抽出することを検討した。
そこで本研究では,対象話者が話しているセグメント(Positive Enrollments)と,対象話者が沈黙しているセグメント(Negative Enrollments)を比較することで,雑音の多い話者情報から対象話者情報をエンコードする新しい登録戦略を提案する。
実験により,2つの話者の混合から単音節音声を抽出する従来の手法と比較して,2.1dB以上のSI-SNRiを実現するモデルアーキテクチャの有効性が示された。
さらに、提案した2段階トレーニング戦略は収束を加速し、3dB SNRに到達するのに必要な最適化ステップの数を60\%削減する。
提案手法は,雑音下での単音場話者抽出における最先端性能を実現する。
関連論文リスト
- Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。
TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。
分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-15T03:58:13Z) - Exploring Speaker-Related Information in Spoken Language Understanding
for Better Speaker Diarization [7.673971221635779]
多人数会議におけるセマンティックコンテンツから話者関連情報を抽出する手法を提案する。
AISHELL-4とAliMeetingの2つのデータセットを用いた実験により,本手法は音響のみの話者ダイアリゼーションシステムよりも一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2023-05-22T11:14:19Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Speaker Extraction with Co-Speech Gestures Cue [79.91394239104908]
話者抽出のための話者キューとして,手動や体の動きなど,共同音声ジェスチャシーケンスの活用について検討する。
目標話者に対する注意深い聴取を行うために,共音声ジェスチャキューを用いて2つのネットワークを提案する。
実験結果から, 対象話者の関連付けにおいて, 共音声のジェスチャーキューが有意であり, 抽出した音声の品質は未処理の混合音声よりも有意に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-31T06:48:52Z) - Speaker Generation [16.035697779803627]
本研究は,非存在感音声における音声合成の課題について考察する。
本稿では,この課題に対して競争力のあるシステムであるTacoSpawnを紹介する。
論文 参考訳(メタデータ) (2021-11-07T22:31:41Z) - WASE: Learning When to Attend for Speaker Extraction in Cocktail Party
Environments [21.4128321045702]
話者抽出問題では,対象話者からの付加情報が話者の追跡・抽出に寄与することが判明した。
発声のキューにインスパイアされ, 発声のキューを明示的にモデル化し, 話者抽出作業の有効性を検証した。
タスクの観点から、我々のオンセット/オフセットモデルでは、話者抽出と話者依存音声活動検出の相補的な組み合わせである複合タスクを完成させる。
論文 参考訳(メタデータ) (2021-06-13T14:56:05Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - FaceFilter: Audio-visual speech separation using still images [41.97445146257419]
本稿では,2つの話者の混在した話者の発話を,ディープ・オーディオ・ビジュアル・音声分離ネットワークを用いて分離することを目的とする。
ビデオクリップの唇の動きや事前登録された話者情報を補助的条件特徴として用いた従来の作品とは異なり、対象話者の単一顔画像を使用する。
論文 参考訳(メタデータ) (2020-05-14T15:42:31Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。