論文の概要: Multi-stage Speaker Extraction with Utterance and Frame-Level Reference
Signals
- arxiv url: http://arxiv.org/abs/2011.09624v2
- Date: Fri, 2 Apr 2021 08:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 21:43:02.856719
- Title: Multi-stage Speaker Extraction with Utterance and Frame-Level Reference
Signals
- Title(参考訳): 発話とフレームレベル基準信号を用いた多段話者抽出
- Authors: Meng Ge, Chenglin Xu, Longbiao Wang, Eng Siong Chng, Jianwu Dang,
Haizhou Li
- Abstract要約: 本稿では,複数段階の話者抽出手法を提案する。
初めて、ターゲット話者の基準としてフレームレベルの逐次音声埋め込みを用いる。
- 参考スコア(独自算出の注目度): 113.78060608441348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker extraction requires a sample speech from the target speaker as the
reference. However, enrolling a speaker with a long speech is not practical. We
propose a speaker extraction technique, that performs in multiple stages to
take full advantage of short reference speech sample. The extracted speech in
early stages is used as the reference speech for late stages. For the first
time, we use frame-level sequential speech embedding as the reference for
target speaker. This is a departure from the traditional utterance-based
speaker embedding reference. In addition, a signal fusion scheme is proposed to
combine the decoded signals in multiple scales with automatically learned
weights. Experiments on WSJ0-2mix and its noisy versions (WHAM! and WHAMR!)
show that SpEx++ consistently outperforms other state-of-the-art baselines.
- Abstract(参考訳): 話者抽出は、対象話者からのサンプル音声を基準として要求する。
しかし、長いスピーチで話者を登録することは現実的ではない。
そこで本研究では,複数段階の話者抽出手法を提案する。
早期の抽出音声は、後期の参照音声として使用される。
初めて、ターゲット話者の基準としてフレームレベルの逐次音声埋め込みを用いる。
これは従来の発話ベースの話者埋め込み参照からの脱却である。
さらに、複数のスケールで復号された信号を自動学習重み付けと組み合わせるための信号融合方式も提案されている。
WSJ0-2mixとそのノイズバージョン(WHAM!とWHAMR!)の実験は、SpEx++が他の最先端のベースラインを一貫して上回っていることを示している。
関連論文リスト
- LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech [25.707717591185386]
品質の劣化を伴わずに、話者の声と、音声参照の韻律を独立にクローンすることが可能であることを示す。
コードとトレーニングされたモデルはすべて、静的およびインタラクティブなデモとともに利用可能です。
論文 参考訳(メタデータ) (2022-06-24T11:54:59Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Guided Training: A Simple Method for Single-channel Speaker Separation [40.34570426165019]
本稿では,話者分離における置換問題を解決するため,長期記憶モデル(LSTM)を訓練する戦略を提案する。
シーケンスモデリングの強力な能力のため、LSTMはそのメモリセルを使用して、ターゲット音声と干渉音声の追跡と分離を行うことができる。
論文 参考訳(メタデータ) (2021-03-26T08:46:50Z) - Speaker Separation Using Speaker Inventories and Estimated Speech [78.57067876891253]
話者在庫(SSUSI)と推定音声(SSUES)を用いた話者分離を提案する。
置換不変訓練(PIT)と音声抽出の利点を組み合わせることで、SSUSIは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-20T18:15:45Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。