論文の概要: Human-in-the-loop Speaker Adaptation for DNN-based Multi-speaker TTS
- arxiv url: http://arxiv.org/abs/2206.10256v1
- Date: Tue, 21 Jun 2022 11:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-26 12:38:07.564417
- Title: Human-in-the-loop Speaker Adaptation for DNN-based Multi-speaker TTS
- Title(参考訳): DNNを用いたマルチスピーカTSのためのHuman-in-the-loop Speaker Adaptation
- Authors: Kenta Udagawa, Yuki Saito, Hiroshi Saruwatari
- Abstract要約: マルチ話者音声を対象としたヒューマン・イン・ザ・ループ話者適応手法を提案する。
提案手法では, ユーザに対して, 埋め込み空間内の線分上の点を選択するように繰り返し要求する逐次線探索アルゴリズムを用いる。
実験結果から,提案手法は客観的および主観的評価において従来の手法に匹敵する性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 36.023566245506046
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper proposes a human-in-the-loop speaker-adaptation method for
multi-speaker text-to-speech. With a conventional speaker-adaptation method, a
target speaker's embedding vector is extracted from his/her reference speech
using a speaker encoder trained on a speaker-discriminative task. However, this
method cannot obtain an embedding vector for the target speaker when the
reference speech is unavailable. Our method is based on a human-in-the-loop
optimization framework, which incorporates a user to explore the
speaker-embedding space to find the target speaker's embedding. The proposed
method uses a sequential line search algorithm that repeatedly asks a user to
select a point on a line segment in the embedding space. To efficiently choose
the best speech sample from multiple stimuli, we also developed a system in
which a user can switch between multiple speakers' voices for each phoneme
while looping an utterance. Experimental results indicate that the proposed
method can achieve comparable performance to the conventional one in objective
and subjective evaluations even if reference speech is not used as the input of
a speaker encoder directly.
- Abstract(参考訳): 本稿では,マルチスピーカー音声合成のための話者適応方式を提案する。
従来の話者適応法では、話者識別タスクで訓練された話者エンコーダを用いて、対象話者の埋め込みベクトルを基準音声から抽出する。
しかし、参照音声が利用できない場合には、対象話者に対する埋め込みベクトルを得ることができない。
提案手法は,ユーザが話者埋め込み空間を探索し,対象話者の埋め込みを見つけるための,ループ内最適化フレームワークに基づいている。
提案手法では, ユーザに対して, 埋め込み空間内の線分上の点を選択するように繰り返し要求する逐次線探索アルゴリズムを用いる。
また,複数の音声刺激から最適な音声サンプルを効率よく選択するために,発話をループしながら各音素毎に複数の話者の声を切り替えるシステムを開発した。
実験結果から,提案手法は話者エンコーダの入力として参照音声を使用しなくても,従来の手法と客観的,主観的評価で同等の性能が得られることが示された。
関連論文リスト
- Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。
TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。
分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-15T03:58:13Z) - Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition [27.35304346509647]
話者ラベルを自己回帰変換器に基づく音声認識モデルに導入する。
次に、個々の話者の音声セグメントを検出するための新しい話者マスク分岐を提案する。
提案モデルでは,音声認識と話者ダイアリゼーションの両方を同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-18T06:29:53Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Guided Training: A Simple Method for Single-channel Speaker Separation [40.34570426165019]
本稿では,話者分離における置換問題を解決するため,長期記憶モデル(LSTM)を訓練する戦略を提案する。
シーケンスモデリングの強力な能力のため、LSTMはそのメモリセルを使用して、ターゲット音声と干渉音声の追跡と分離を行うことができる。
論文 参考訳(メタデータ) (2021-03-26T08:46:50Z) - Deep Ad-hoc Beamforming Based on Speaker Extraction for Target-Dependent
Speech Separation [7.453268060082337]
本稿では,話者抽出に基づくディープアドホックビームフォーミングを提案する。これは,アドホックマイクロホンアレイとディープラーニングに基づくターゲット依存音声分離のための最初の研究である。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-12-01T11:06:36Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。