論文の概要: Improving Target Speaker Extraction with Sparse LDA-transformed Speaker
Embeddings
- arxiv url: http://arxiv.org/abs/2301.06277v1
- Date: Mon, 16 Jan 2023 06:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 16:26:17.559586
- Title: Improving Target Speaker Extraction with Sparse LDA-transformed Speaker
Embeddings
- Title(参考訳): 疎LDA変換話者埋め込みによるターゲット話者抽出の改善
- Authors: Kai Liu, Xucheng Wan, Ziqing Du and Huan Zhou
- Abstract要約: 対象話者抽出のためのクラス分離性を明確にした簡易な話者キューを提案する。
提案はSI-SDRiの9.9%の相対的な改善を示す。
19.4dBのSI-SDRiと3.78のPSSQでは、私たちの最高のTSEシステムは現在のSOTAシステムよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 5.4878772986187565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a practical alternative of speech separation, target speaker extraction
(TSE) aims to extract the speech from the desired speaker using additional
speaker cue extracted from the speaker. Its main challenge lies in how to
properly extract and leverage the speaker cue to benefit the extracted speech
quality. The cue extraction method adopted in majority existing TSE studies is
to directly utilize discriminative speaker embedding, which is extracted from
the pre-trained models for speaker verification. Although the high speaker
discriminability is a most desirable property for speaker verification task, we
argue that it may be too sophisticated for TSE. In this study, we propose that
a simplified speaker cue with clear class separability might be preferred for
TSE. To verify our proposal, we introduce several forms of speaker cues,
including naive speaker embedding (such as, x-vector and xi-vector) and new
speaker embeddings produced from sparse LDA-transform. Corresponding TSE models
are built by integrating these speaker cues with SepFormer (one SOTA speech
separation model). Performances of these TSE models are examined on the
benchmark WSJ0-2mix dataset. Experimental results validate the effectiveness
and generalizability of our proposal, showing up to 9.9% relative improvement
in SI-SDRi. Moreover, with SI-SDRi of 19.4 dB and PESQ of 3.78, our best TSE
system significantly outperforms the current SOTA systems and offers the top
TSE results reported till date on the WSJ0-2mix.
- Abstract(参考訳): 音声分離の実践的な代替手段として、ターゲット話者抽出(TSE)は、話者から抽出した追加話者キューを用いて、所望の話者から音声を抽出することを目的としている。
その主な課題は、話者の手がかりを適切に抽出し活用し、抽出された音声品質を生かす方法である。
既存のほとんどのTSE研究で採用されているキュー抽出法は,事前学習した話者検証モデルから抽出した識別話者埋め込みを直接利用することである。
高い話者識別性は話者検証タスクにおいて最も望ましい特性であるが、TSEには高度すぎるかもしれないと論じる。
本研究では,クラス分離性を明確にした簡易な話者キューがTSEに好適であることを示す。
提案手法を検証するため, 疎LDA変換から生成した話者埋め込み(x-vectorやxi-vectorなど)や新しい話者埋め込みなど, 複数種類の話者手がかりを導入する。
対応するtseモデルは、これらの話者キューとsepformer(soma音声分離モデル)を統合することで構築される。
これらのTSEモデルの性能をベンチマークWSJ0-2mixデータセットで検討した。
実験の結果,SI-SDRiでは9.9%の相対的な改善が見られた。
さらに, SI-SDRiの19.4dB, PESQの3.78では, 現在のSOTAシステムよりも優れた性能を示し, WSJ0-2mixで報告されたトップTSE結果を提供する。
関連論文リスト
- Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。
TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。
分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-15T03:58:13Z) - SelectTTS: Synthesizing Anyone's Voice via Discrete Unit-Based Frame Selection [7.6732312922460055]
本稿では,対象話者から適切なフレームを選択するための新しい手法であるSelectTTSを提案し,フレームレベルの自己教師型学習(SSL)機能を用いてデコードする。
提案手法は,未知話者の話者特性を効果的に把握し,主観的および主観的の両方において,他のマルチ話者テキスト音声フレームワークに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:34:46Z) - Improving Speaker Assignment in Speaker-Attributed ASR for Real Meeting Applications [18.151884620928936]
本稿では,実生活シナリオにおける話者分散ASR(SA-ASR)システムの最適化を目的とした新しい研究を提案する。
本稿では,Voice Activity Detection (VAD), Speaker Diarization (SD), SA-ASRを含む実生活用パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-11T10:11:29Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - X-SepFormer: End-to-end Speaker Extraction Network with Explicit
Optimization on Speaker Confusion [5.4878772986187565]
本稿では、損失スキームとSepFormerのバックボーンを備えたエンドツーエンドのTSEモデルを提案する。
19.4dBのSI-SDRiと3.81のPSSQでは、私たちの最良のシステムは現在のSOTAシステムよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-09T04:00:29Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints [36.07346889498981]
話者類似性を大幅に向上した高品質な話者適応を実現するGC-TTSを提案する。
TTSモデルは、十分な量のデータを持つベーススピーカーに対して事前訓練され、それから2つの幾何学的制約を持つ数分のデータに基づいて、新しいスピーカーのために微調整される。
実験結果から,GC-TTSは学習データの数分で高品質な音声を生成できることがわかった。
論文 参考訳(メタデータ) (2021-08-16T04:25:31Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - Speaker-aware speech-transformer [18.017579835663057]
E2Eモデルの話者認識学習のための学習プラットフォームとしての音声変換器(ST)
話者対応音声変換器(SAST)は、話者注意モジュール(SAM)を備えた標準STである
論文 参考訳(メタデータ) (2020-01-02T15:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。