論文の概要: Supervised Speaker Embedding De-Mixing in Two-Speaker Environment
- arxiv url: http://arxiv.org/abs/2001.06397v2
- Date: Fri, 5 Feb 2021 15:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 12:15:24.906098
- Title: Supervised Speaker Embedding De-Mixing in Two-Speaker Environment
- Title(参考訳): 2話者環境における教師付き話者埋め込み脱混合
- Authors: Yanpei Shi, Thomas Hain
- Abstract要約: 音源分離のような信号空間で2つの話者信号を分離する代わりに,話者埋め込み型デミックス方式を提案する。
提案手法は、埋め込み空間における2つの話者信号と異なる話者特性を分離する。
- 参考スコア(独自算出の注目度): 37.27421131374047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Separating different speaker properties from a multi-speaker environment is
challenging. Instead of separating a two-speaker signal in signal space like
speech source separation, a speaker embedding de-mixing approach is proposed.
The proposed approach separates different speaker properties from a two-speaker
signal in embedding space. The proposed approach contains two steps. In step
one, the clean speaker embeddings are learned and collected by a residual TDNN
based network. In step two, the two-speaker signal and the embedding of one of
the speakers are both input to a speaker embedding de-mixing network. The
de-mixing network is trained to generate the embedding of the other speaker by
reconstruction loss. Speaker identification accuracy and the cosine similarity
score between the clean embeddings and the de-mixed embeddings are used to
evaluate the quality of the obtained embeddings. Experiments are done in two
kind of data: artificial augmented two-speaker data (TIMIT) and real world
recording of two-speaker data (MC-WSJ). Six different speaker embedding
de-mixing architectures are investigated. Comparing with the performance on the
clean speaker embeddings, the obtained results show that one of the proposed
architectures obtained close performance, reaching 96.9% identification
accuracy and 0.89 cosine similarity.
- Abstract(参考訳): 複数話者環境から異なる話者特性を分離することは困難である。
発声源分離のような信号空間に2話者信号を分離する代わりに、話者埋め込み非混合方式を提案する。
提案手法では,埋め込み空間における2話者信号と異なる話者特性を分離する。
提案手法には2つのステップがある。
ステップ1では、残余のTDNNネットワークによりクリーンな話者埋め込みを学習し、収集する。
ステップ2では、2つのスピーカ信号と1つのスピーカの埋め込みの両方が、話者埋め込みデミックスネットワークに入力される。
脱混合ネットワークは、再構成損失により他の話者の埋め込みを生成するように訓練される。
得られた組込みの品質を評価するために、クリーン組込みとデミックス組込みとの間の話者識別精度とコサイン類似度スコアを用いる。
実験は, 人工拡張現実2話者データ (TIMIT) と実世界2話者データ (MC-WSJ) の2種類のデータを用いて行われる。
6種類の話者埋め込み逆混合アーキテクチャについて検討した。
クリーンな話者埋め込みの性能と比較すると,提案アーキテクチャの1つは密な性能を示し,96.9%の識別精度と0.89のコサイン類似性を示した。
関連論文リスト
- In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Time-Domain Speech Extraction with Spatial Information and Multi Speaker
Conditioning Mechanism [27.19635746008699]
混合物から複数のクリーンな個人ソースを同時に抽出する,新しいマルチチャネル音声抽出システムを提案する。
提案手法は改良されたマルチチャネル時間領域音声分離ネットワーク上に構築される。
2チャンネル WHAMR! データを用いた実験により, 強いマルチチャネルベースライン上でのソース分離性能を9%向上することを確認した。
論文 参考訳(メタデータ) (2021-02-07T10:11:49Z) - Single channel voice separation for unknown number of speakers under
reverberant and noisy settings [106.48335929548875]
未知話者の音声分離のための統一ネットワークを提案する。
提案手法は話者分類枝とともに最適化された複数の分離ヘッドから構成される。
最大5人の話者が同時に話す新しい雑音と残響のデータセットを提示する。
論文 参考訳(メタデータ) (2020-11-04T14:59:14Z) - Compositional embedding models for speaker identification and
diarization with simultaneous speech from 2+ speakers [25.280566939206714]
2人以上の話者で重なり合う音声を処理できる新しい話者ダイアリゼーション法を提案する。
本手法は, 組成埋め込みに基づく。
論文 参考訳(メタデータ) (2020-10-22T15:33:36Z) - DNN Speaker Tracking with Embeddings [0.0]
埋め込み型話者追跡手法を提案する。
我々の設計は、典型的な話者検証PLDAを模倣した畳み込みニューラルネットワークに基づいている。
ベースラインシステムを話者追跡と類似させるため、非ターゲット話者を録音に追加した。
論文 参考訳(メタデータ) (2020-07-13T18:40:14Z) - Identify Speakers in Cocktail Parties with End-to-End Attention [48.96655134462949]
本稿では,音声ソース抽出と話者識別を統合したエンドツーエンドシステムを提案する。
本稿では,チャネル次元に沿って話者予測を最大にすることで,これら2つの部分を協調的に最適化する方法を提案する。
エンドツーエンドのトレーニングは、99.9%の精度と93.9%の精度で2話者放送音声の1つの話者を認識するシステムである。
論文 参考訳(メタデータ) (2020-05-22T22:15:16Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。