論文の概要: Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam
- arxiv url: http://arxiv.org/abs/2001.08378v1
- Date: Thu, 23 Jan 2020 05:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 13:23:55.312635
- Title: Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam
- Title(参考訳): 時間領域話者ビームによるターゲット音声抽出の話者識別の改善
- Authors: Marc Delcroix, Tsubasa Ochiai, Katerina Zmolikova, Keisuke Kinoshita,
Naohiro Tawara, Tomohiro Nakatani, Shoko Araki
- Abstract要約: SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 100.95498268200777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Target speech extraction, which extracts a single target source in a mixture
given clues about the target speaker, has attracted increasing attention. We
have recently proposed SpeakerBeam, which exploits an adaptation utterance of
the target speaker to extract his/her voice characteristics that are then used
to guide a neural network towards extracting speech of that speaker.
SpeakerBeam presents a practical alternative to speech separation as it enables
tracking speech of a target speaker across utterances, and achieves promising
speech extraction performance. However, it sometimes fails when speakers have
similar voice characteristics, such as in same-gender mixtures, because it is
difficult to discriminate the target speaker from the interfering speakers. In
this paper, we investigate strategies for improving the speaker discrimination
capability of SpeakerBeam. First, we propose a time-domain implementation of
SpeakerBeam similar to that proposed for a time-domain audio separation network
(TasNet), which has achieved state-of-the-art performance for speech
separation. Besides, we investigate (1) the use of spatial features to better
discriminate speakers when microphone array recordings are available, (2)
adding an auxiliary speaker identification loss for helping to learn more
discriminative voice characteristics. We show experimentally that these
strategies greatly improve speech extraction performance, especially for
same-gender mixtures, and outperform TasNet in terms of target speech
extraction.
- Abstract(参考訳): ターゲット話者に関する手がかりが与えられた混合音声から1つの目標音源を抽出する目標音声抽出が注目されている。
我々は最近,ターゲット話者の適応発話を利用して,その話者の声の特徴を抽出し,その話者の音声抽出にニューラルネットワークを誘導する話者ビームを提案する。
SpeakerBeamは、発話間でターゲット話者の音声を追跡可能とし、有望な音声抽出性能を実現するため、音声分離の実用的な代替手段を提供する。
しかし、目的とする話者と干渉する話者との区別が難しいため、同世代の混合話者のような類似した声質を持つ話者では、しばしば失敗する。
本稿では,スピーカビームの話者識別能力を向上させるための戦略を検討する。
まず,音声分離のための最先端性能を実現する時間領域音声分離ネットワーク(tasnet)において,提案手法と類似した話者ビームの時間領域実装を提案する。
さらに,(1)マイクロホンアレー録音が可能な場合の話者識別における空間的特徴の利用について検討し,(2)話者識別損失を補助的に加え,識別音声特性の学習を支援する。
提案手法は, 音声抽出性能, 特に同世代混合音声における音声抽出性能, 目標音声抽出におけるtasnetよりも優れることを示す。
関連論文リスト
- In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Human-in-the-loop Speaker Adaptation for DNN-based Multi-speaker TTS [36.023566245506046]
マルチ話者音声を対象としたヒューマン・イン・ザ・ループ話者適応手法を提案する。
提案手法では, ユーザに対して, 埋め込み空間内の線分上の点を選択するように繰り返し要求する逐次線探索アルゴリズムを用いる。
実験結果から,提案手法は客観的および主観的評価において従来の手法に匹敵する性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-21T11:08:05Z) - Speaker Extraction with Co-Speech Gestures Cue [79.91394239104908]
話者抽出のための話者キューとして,手動や体の動きなど,共同音声ジェスチャシーケンスの活用について検討する。
目標話者に対する注意深い聴取を行うために,共音声ジェスチャキューを用いて2つのネットワークを提案する。
実験結果から, 対象話者の関連付けにおいて, 共音声のジェスチャーキューが有意であり, 抽出した音声の品質は未処理の混合音声よりも有意に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-31T06:48:52Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Guided Training: A Simple Method for Single-channel Speaker Separation [40.34570426165019]
本稿では,話者分離における置換問題を解決するため,長期記憶モデル(LSTM)を訓練する戦略を提案する。
シーケンスモデリングの強力な能力のため、LSTMはそのメモリセルを使用して、ターゲット音声と干渉音声の追跡と分離を行うことができる。
論文 参考訳(メタデータ) (2021-03-26T08:46:50Z) - U-vectors: Generating clusterable speaker embedding from unlabeled data [0.0]
本稿では,未ラベルデータを扱う話者認識戦略を提案する。
小さな固定サイズの音声フレームからクラスタブルな埋め込みベクトルを生成する。
提案手法はペアワイズアーキテクチャを用いて優れた性能を実現する。
論文 参考訳(メタデータ) (2021-02-07T18:00:09Z) - Speaker Separation Using Speaker Inventories and Estimated Speech [78.57067876891253]
話者在庫(SSUSI)と推定音声(SSUES)を用いた話者分離を提案する。
置換不変訓練(PIT)と音声抽出の利点を組み合わせることで、SSUSIは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-20T18:15:45Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。