論文の概要: Voice Conversion Based Speaker Normalization for Acoustic Unit Discovery
- arxiv url: http://arxiv.org/abs/2105.01786v1
- Date: Tue, 4 May 2021 22:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:42:48.164840
- Title: Voice Conversion Based Speaker Normalization for Acoustic Unit Discovery
- Title(参考訳): 音声変換に基づく音響ユニット発見のための話者正規化
- Authors: Thomas Glarner, Janek Ebbers, Reinhold H\"ab-Umbach
- Abstract要約: 単位発見に先立って教師なし話者正規化手法を提案する。
対比的コントラスト予測符号化手法を用いて、音声信号のコンテンツ誘起変化から話者に関連する話者を切り離すことを基本とする。
英語,Yoruba,Mboshiの実験では,非正規化入力と比較して改善が見られた。
- 参考スコア(独自算出の注目度): 3.128267020893596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discovering speaker independent acoustic units purely from spoken input is
known to be a hard problem. In this work we propose an unsupervised speaker
normalization technique prior to unit discovery. It is based on separating
speaker related from content induced variations in a speech signal with an
adversarial contrastive predictive coding approach. This technique does neither
require transcribed speech nor speaker labels, and, furthermore, can be trained
in a multilingual fashion, thus achieving speaker normalization even if only
few unlabeled data is available from the target language. The speaker
normalization is done by mapping all utterances to a medoid style which is
representative for the whole database. We demonstrate the effectiveness of the
approach by conducting acoustic unit discovery with a hidden Markov model
variational autoencoder noting, however, that the proposed speaker
normalization can serve as a front end to any unit discovery system.
Experiments on English, Yoruba and Mboshi show improvements compared to using
non-normalized input.
- Abstract(参考訳): 音声入力から純粋に話者独立な音響単位を発見することは難しい問題である。
本研究では,単位発見前の教師なし話者正規化手法を提案する。
本手法は, 対向的コントラッシブ予測符号化手法を用いて, 音声信号における内容誘発変動から話者を分離する。
この手法は、書き起こされた音声や話者ラベルを必要とせず、さらに多言語で訓練することができるため、対象言語からわずかなラベルのないデータしか得られなくても、話者正規化が可能となる。
話者正規化は、すべての発話をデータベース全体の代表であるメドロイド形式にマッピングすることで行われる。
隠れマルコフモデル変分オートエンコーダを用いて音響ユニット発見を行うことによる手法の有効性を実証するが,提案した話者正規化は任意の単位発見システムのフロントエンドとして機能する。
英語,Yoruba,Mboshiの実験では,非正規化入力と比較して改善が見られた。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Self-supervised Predictive Coding Models Encode Speaker and Phonetic
Information in Orthogonal Subspaces [14.301142521638123]
自己教師型音声表現は、話者情報と音声情報をエンコードすることが知られている。
話者情報を符号化する部分空間を崩壊させる新しい話者正規化法を提案する。
論文 参考訳(メタデータ) (2023-05-21T14:03:54Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Human-in-the-loop Speaker Adaptation for DNN-based Multi-speaker TTS [36.023566245506046]
マルチ話者音声を対象としたヒューマン・イン・ザ・ループ話者適応手法を提案する。
提案手法では, ユーザに対して, 埋め込み空間内の線分上の点を選択するように繰り返し要求する逐次線探索アルゴリズムを用いる。
実験結果から,提案手法は客観的および主観的評価において従来の手法に匹敵する性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-21T11:08:05Z) - Revisiting joint decoding based multi-talker speech recognition with DNN
acoustic model [34.061441900912136]
このようなスキームは準最適であり、すべての話者を共同で復号する原理的解法を提案する。
本研究では,全ての話者の関節後部状態を予測するために音響モデルを改良し,話者への音声信号の一部の帰属に関する不確実性をネットワークが表現できるようにする。
論文 参考訳(メタデータ) (2021-10-31T09:28:04Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。