論文の概要: Phoneme Hallucinator: One-shot Voice Conversion via Set Expansion
- arxiv url: http://arxiv.org/abs/2308.06382v1
- Date: Fri, 11 Aug 2023 20:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 17:42:31.979608
- Title: Phoneme Hallucinator: One-shot Voice Conversion via Set Expansion
- Title(参考訳): Phoneme Hallucinator: セット拡張によるワンショット音声変換
- Authors: Siyuan Shan, Yang Li, Amartya Banerjee, Junier B. Oliva
- Abstract要約: 音声変換は、言語コンテンツを保存しながら、人の声に似せて聞こえるように人の声を変更することを目的としている。
既存の手法は、内容の知性と話者の類似性の間のジレンマに悩まされる。
両世界のベストを達成できる新しい方法であるtextitPhoneme Hallucinatorを提案する。
- 参考スコア(独自算出の注目度): 12.064177287199822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice conversion (VC) aims at altering a person's voice to make it sound
similar to the voice of another person while preserving linguistic content.
Existing methods suffer from a dilemma between content intelligibility and
speaker similarity; i.e., methods with higher intelligibility usually have a
lower speaker similarity, while methods with higher speaker similarity usually
require plenty of target speaker voice data to achieve high intelligibility. In
this work, we propose a novel method \textit{Phoneme Hallucinator} that
achieves the best of both worlds. Phoneme Hallucinator is a one-shot VC model;
it adopts a novel model to hallucinate diversified and high-fidelity target
speaker phonemes based just on a short target speaker voice (e.g. 3 seconds).
The hallucinated phonemes are then exploited to perform neighbor-based voice
conversion. Our model is a text-free, any-to-any VC model that requires no text
annotations and supports conversion to any unseen speaker. Objective and
subjective evaluations show that \textit{Phoneme Hallucinator} outperforms
existing VC methods for both intelligibility and speaker similarity.
- Abstract(参考訳): 音声変換(VC)は、人の声を他の人の声に似せて、言語的内容を保存することを目的としている。
既存の手法は、コンテンツインテリジェンスと話者類似性の間のジレンマに悩まされる;すなわち、高いインテリジェンスを持つ方法は通常、低い話者類似性を持つが、高い話者類似性を持つ方法は、高いインテリジェンスを達成するために、多くのターゲット話者音声データを必要とする。
本研究では,両世界の最良を達成できる新しい方法であるtextit{Phoneme Hallucinator}を提案する。
Phoneme HallucinatorはワンショットVCモデルであり、短いターゲット話者の声(例えば3秒)のみに基づいて、多様化された高忠実度ターゲット話者音素を幻覚させる新しいモデルを採用している。
幻覚音素は、隣人に基づく音声変換を行うために利用される。
私たちのモデルはテキストフリーで任意のvcモデルで、テキストアノテーションを必要とせず、見当たらない話者への変換をサポートします。
客観的および主観的評価は, 既存のVC手法よりも, 可知性と話者類似性の両方において優れていたことを示している。
関連論文リスト
- Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - MulliVC: Multi-lingual Voice Conversion With Cycle Consistency [75.59590240034261]
MulliVCは、音色のみを変換し、多言語ペアリングデータなしでオリジナルコンテンツとソースコードの韻律を保持する新しい音声変換システムである。
目的と主観の両方の結果から,MulliVCはモノリンガルとクロスリンガルの両方の文脈において,他の手法をはるかに上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-08-08T18:12:51Z) - Creating New Voices using Normalizing Flows [16.747198180269127]
本研究では,テキスト音声(TTS)と音声変換(VC)モードのフローを正規化して,学習中に観察された話者から外挿し,未知の話者識別を生成する能力について検討する。
目的と主観の両方を用いて、ゼロショットと新しい音声合成という2つの評価課題にテクニックをベンチマークする。
論文 参考訳(メタデータ) (2023-12-22T10:00:24Z) - SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross
Attention [24.842378497026154]
SEF-VCは、話者埋め込み自由音声変換モデルである。
話者の音色を、強力な位置非依存のクロスアテンション機構を通じて参照音声から学習し、組み込む。
HuBERTセマンティックトークンからの波形を非自己回帰的に再構成する。
論文 参考訳(メタデータ) (2023-12-14T06:26:55Z) - Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech [25.707717591185386]
品質の劣化を伴わずに、話者の声と、音声参照の韻律を独立にクローンすることが可能であることを示す。
コードとトレーニングされたモデルはすべて、静的およびインタラクティブなデモとともに利用可能です。
論文 参考訳(メタデータ) (2022-06-24T11:54:59Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Latent linguistic embedding for cross-lingual text-to-speech and voice
conversion [44.700803634034486]
言語間音声生成は、話者が話さない言語において、ターゲット話者の声で発話が生成されるシナリオである。
提案手法は, 話者類似度の高い多言語VCを生成するだけでなく, 余分なステップを踏むことなく, TTSをシームレスに利用できることを示す。
論文 参考訳(メタデータ) (2020-10-08T01:25:07Z) - Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking
Head Generation Using Phonetic Posteriorgrams [58.617181880383605]
そこで本研究では,音声後部グラフを用いた新しい手法を提案する。
我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。
本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
論文 参考訳(メタデータ) (2020-06-20T16:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。