論文の概要: Target Speaker Extraction through Comparing Noisy Positive and Negative Audio Enrollments
- arxiv url: http://arxiv.org/abs/2502.16611v1
- Date: Sun, 23 Feb 2025 15:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:52:16.289087
- Title: Target Speaker Extraction through Comparing Noisy Positive and Negative Audio Enrollments
- Title(参考訳): 雑音肯定的および否定的音声入力の比較によるターゲット話者抽出
- Authors: Shitong Xu, Yiyuan Yang, Niki Trigoni, Andrew Markham,
- Abstract要約: 雑音の多い音声の例から対象話者の特徴を抽出することを検討した。
本研究では,複数の話者が存在する場合のターゲット話者抽出に着目した。
実験により,提案課題に対するモデルアーキテクチャの有効性と事前学習法の有効性が示された。
- 参考スコア(独自算出の注目度): 34.67934887761352
- License:
- Abstract: Target speaker extraction focuses on isolating a specific speaker's voice from an audio mixture containing multiple speakers. To provide information about the target speaker's identity, prior works have utilized clean audio examples as conditioning inputs. However, such clean audio examples are not always readily available (e.g. It is impractical to obtain a clean audio example of a stranger's voice at a cocktail party without stepping away from the noisy environment). Limited prior research has explored extracting the target speaker's characteristics from noisy audio examples, which may include overlapping speech from disturbing speakers. In this work, we focus on target speaker extraction when multiple speakers are present during the enrollment stage, through leveraging differences between audio segments where the target speakers are speaking (Positive Enrollments) and segments where they are not (Negative Enrollments). Experiments show the effectiveness of our model architecture and the dedicated pretraining method for the proposed task. Our method achieves state-of-the-art performance in the proposed application settings and demonstrates strong generalizability across challenging and realistic scenarios.
- Abstract(参考訳): ターゲット話者抽出は、複数の話者を含むオーディオ混合物から特定の話者の声を分離することに焦点を当てる。
対象話者の身元に関する情報を提供するため、事前の作業では、清潔な音声サンプルを条件入力として利用している。
しかし、このようなクリーンなオーディオの例は必ずしも容易には利用できない(例えば、騒がしい環境から離れることなくカクテルパーティーで見知らぬ人の音声のクリーンなオーディオの例を得るのは現実的ではない)。
限定的な先行研究では、雑音の多い音声の例からターゲット話者の特徴を抽出することを検討した。
本研究は,対象話者が話している音声セグメント(Positive Enrollments)とそうでない音声セグメント(Negative Enrollments)の差を利用して,複数の話者が存在する場合のターゲット話者抽出に着目した。
実験により,提案課題に対するモデルアーキテクチャの有効性と事前学習法の有効性が示された。
提案手法は,提案したアプリケーション設定における最先端性能を実現し,挑戦的,現実的なシナリオにまたがる強力な一般化性を示す。
関連論文リスト
- Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。
TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。
分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-15T03:58:13Z) - Exploring Speaker-Related Information in Spoken Language Understanding
for Better Speaker Diarization [7.673971221635779]
多人数会議におけるセマンティックコンテンツから話者関連情報を抽出する手法を提案する。
AISHELL-4とAliMeetingの2つのデータセットを用いた実験により,本手法は音響のみの話者ダイアリゼーションシステムよりも一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2023-05-22T11:14:19Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Speaker Extraction with Co-Speech Gestures Cue [79.91394239104908]
話者抽出のための話者キューとして,手動や体の動きなど,共同音声ジェスチャシーケンスの活用について検討する。
目標話者に対する注意深い聴取を行うために,共音声ジェスチャキューを用いて2つのネットワークを提案する。
実験結果から, 対象話者の関連付けにおいて, 共音声のジェスチャーキューが有意であり, 抽出した音声の品質は未処理の混合音声よりも有意に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-31T06:48:52Z) - Speaker Generation [16.035697779803627]
本研究は,非存在感音声における音声合成の課題について考察する。
本稿では,この課題に対して競争力のあるシステムであるTacoSpawnを紹介する。
論文 参考訳(メタデータ) (2021-11-07T22:31:41Z) - WASE: Learning When to Attend for Speaker Extraction in Cocktail Party
Environments [21.4128321045702]
話者抽出問題では,対象話者からの付加情報が話者の追跡・抽出に寄与することが判明した。
発声のキューにインスパイアされ, 発声のキューを明示的にモデル化し, 話者抽出作業の有効性を検証した。
タスクの観点から、我々のオンセット/オフセットモデルでは、話者抽出と話者依存音声活動検出の相補的な組み合わせである複合タスクを完成させる。
論文 参考訳(メタデータ) (2021-06-13T14:56:05Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - FaceFilter: Audio-visual speech separation using still images [41.97445146257419]
本稿では,2つの話者の混在した話者の発話を,ディープ・オーディオ・ビジュアル・音声分離ネットワークを用いて分離することを目的とする。
ビデオクリップの唇の動きや事前登録された話者情報を補助的条件特徴として用いた従来の作品とは異なり、対象話者の単一顔画像を使用する。
論文 参考訳(メタデータ) (2020-05-14T15:42:31Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。