論文の概要: Quantitative Evidence on Overlooked Aspects of Enrollment Speaker
Embeddings for Target Speaker Separation
- arxiv url: http://arxiv.org/abs/2210.12635v1
- Date: Sun, 23 Oct 2022 07:08:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 21:20:20.957218
- Title: Quantitative Evidence on Overlooked Aspects of Enrollment Speaker
Embeddings for Target Speaker Separation
- Title(参考訳): ターゲット話者分離のための登録話者埋め込みの見落とし面に関する定量的証拠
- Authors: Xiaoyu Liu, Xu Li, Joan Serr\`a
- Abstract要約: 単一チャネル話者分離は、話者の登録発話を与えられた複数の話者の混合から話者の声を抽出することを目的としている。
典型的なディープラーニングTSSフレームワークは、登録話者埋め込みを取得する上流モデルと、埋め込み上で分離条件を実行する下流モデルで構成されている。
- 参考スコア(独自算出の注目度): 14.013049471563141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single channel target speaker separation (TSS) aims at extracting a speaker's
voice from a mixture of multiple talkers given an enrollment utterance of that
speaker. A typical deep learning TSS framework consists of an upstream model
that obtains enrollment speaker embeddings and a downstream model that performs
the separation conditioned on the embeddings. In this paper, we look into
several important but overlooked aspects of the enrollment embeddings,
including the suitability of the widely used speaker identification embeddings,
the introduction of the log-mel filterbank and self-supervised embeddings, and
the embeddings' cross-dataset generalization capability. Our results show that
the speaker identification embeddings could lose relevant information due to a
sub-optimal metric, training objective, or common pre-processing. In contrast,
both the filterbank and the self-supervised embeddings preserve the integrity
of the speaker information, but the former consistently outperforms the latter
in a cross-dataset evaluation. The competitive separation and generalization
performance of the previously overlooked filterbank embedding is consistent
across our study, which calls for future research on better upstream features.
- Abstract(参考訳): 単一チャネル対象話者分離(TSS)は、話者の登録発話を与えられた複数の話者の混合から話者の声を抽出することを目的としている。
典型的なディープラーニングTSSフレームワークは、登録話者埋め込みを取得する上流モデルと、埋め込み上で分離条件を実行する下流モデルで構成されている。
本稿では,広く使用されている話者識別埋め込みの適合性,ログメルフィルタバンクと自己教師型埋め込みの導入,組込みのクロスデータセット一般化機能など,組込みの重要かつ見落とされがちな側面について考察する。
その結果,話者識別の埋め込みは,準最適基準,訓練目標,共通前処理によって関連情報が失われる可能性が示唆された。
対照的に、フィルタバンクと自己教師付き埋め込みは、話者情報の完全性を維持するが、前者は、クロスデータセット評価において、後者を一貫して上回っている。
従来見過ごされていたフィルタバンク埋め込みの競合的分離と一般化性能は,上流機能の改善に関する今後の研究を求める研究全体で一貫している。
関連論文リスト
- Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。
TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。
分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-15T03:58:13Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - An analysis on the effects of speaker embedding choice in non
auto-regressive TTS [4.619541348328938]
本稿では,非自己回帰的分解型マルチ話者音声合成アーキテクチャが,異なる話者埋め込みセットに存在する情報をどのように活用するかを理解するための最初の試みを紹介する。
使用済みの埋め込みと学習戦略にかかわらず、ネットワークは様々な話者識別を等しく扱うことができることを示す。
論文 参考訳(メタデータ) (2023-07-19T10:57:54Z) - Residual Information in Deep Speaker Embedding Architectures [4.619541348328938]
本稿では,最新の高性能DNNアーキテクチャを用いて抽出した6組の話者埋め込みについて解析する。
データセットには46人の話者が同じプロンプトを発信し、プロのスタジオや自宅の環境に記録されている。
その結果、解析された埋め込みの識別力は非常に高いが、分析された全てのアーキテクチャにおいて、残余情報は依然として表現の中に存在することがわかった。
論文 参考訳(メタデータ) (2023-02-06T12:37:57Z) - Content-Aware Speaker Embeddings for Speaker Diarisation [3.6398652091809987]
コンテンツ認識型話者埋め込み(CASE)アプローチを提案する。
ケースファクターは話者認識から自動音声認識(asr)を導き、話者特性のモデル化に焦点をあてる。
caseは従来の方法に比べて17.8%の相対的な話者誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-02-12T12:02:03Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Speaker Separation Using Speaker Inventories and Estimated Speech [78.57067876891253]
話者在庫(SSUSI)と推定音声(SSUES)を用いた話者分離を提案する。
置換不変訓練(PIT)と音声抽出の利点を組み合わせることで、SSUSIは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-20T18:15:45Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。