論文の概要: VoxGenesis: Unsupervised Discovery of Latent Speaker Manifold for Speech
Synthesis
- arxiv url: http://arxiv.org/abs/2403.00529v1
- Date: Fri, 1 Mar 2024 13:39:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:16:34.436523
- Title: VoxGenesis: Unsupervised Discovery of Latent Speaker Manifold for Speech
Synthesis
- Title(参考訳): VoxGenesis:音声合成のための潜在話者マニフォールドの教師なし発見
- Authors: Weiwei Lin, Chenhang He, Man-Wai Mak, Jiachen Lian and Kong Aik Lee
- Abstract要約: VoxGenesisは、教師なし音声合成フレームワークである。
教師なしで潜在話者多様体と有意義な音声編集方向を見つけることができる。
本稿では,VoxGenesisが従来のアプローチとは大きく異なる特徴を持つ,より多彩で現実的な話者を生成することを示す。
- 参考スコア(独自算出の注目度): 43.369048727268506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving nuanced and accurate emulation of human voice has been a
longstanding goal in artificial intelligence. Although significant progress has
been made in recent years, the mainstream of speech synthesis models still
relies on supervised speaker modeling and explicit reference utterances.
However, there are many aspects of human voice, such as emotion, intonation,
and speaking style, for which it is hard to obtain accurate labels. In this
paper, we propose VoxGenesis, a novel unsupervised speech synthesis framework
that can discover a latent speaker manifold and meaningful voice editing
directions without supervision. VoxGenesis is conceptually simple. Instead of
mapping speech features to waveforms deterministically, VoxGenesis transforms a
Gaussian distribution into speech distributions conditioned and aligned by
semantic tokens. This forces the model to learn a speaker distribution
disentangled from the semantic content. During the inference, sampling from the
Gaussian distribution enables the creation of novel speakers with distinct
characteristics. More importantly, the exploration of latent space uncovers
human-interpretable directions associated with specific speaker characteristics
such as gender attributes, pitch, tone, and emotion, allowing for voice editing
by manipulating the latent codes along these identified directions. We conduct
extensive experiments to evaluate the proposed VoxGenesis using both subjective
and objective metrics, finding that it produces significantly more diverse and
realistic speakers with distinct characteristics than the previous approaches.
We also show that latent space manipulation produces consistent and
human-identifiable effects that are not detrimental to the speech quality,
which was not possible with previous approaches. Audio samples of VoxGenesis
can be found at: \url{https://bit.ly/VoxGenesis}.
- Abstract(参考訳): 人間の声のニュアンスと正確なエミュレーションを達成することは、人工知能の長年の目標だった。
近年は大きな進歩を遂げているが、音声合成モデルの主流は、教師付き話者モデリングと明示的な参照発話に依存している。
しかし、人間の声には感情、イントネーション、話し方など様々な側面があり、正確なラベルを得ることは困難である。
本稿では,潜在話者多様体と有意義な音声編集方向を教師なしで発見できる,新しい教師なし音声合成フレームワークvoxgenesisを提案する。
VoxGenesisは概念的には単純です。
音声特徴を波形に決定論的にマッピングする代わりに、VoxGenesisはガウス分布を意味トークンで条件付きおよび整列された音声分布に変換する。
これにより、モデルはセマンティックコンテンツから切り離された話者分布を学習せざるを得なくなる。
推定中、ガウス分布からのサンプリングにより、異なる特徴を持つ新規話者の作成が可能となる。
より重要なことに、潜在空間の探索は、性別属性、ピッチ、トーン、感情などの特定の話者特性に関連する人間の解釈可能な方向を明らかにし、これらの特定された方向に沿って潜在コードを操作して音声編集を可能にする。
主観的指標と客観的指標の両方を用いて,提案するボクセシスの評価実験を行い,従来のアプローチと異なる特徴を持つ,より多様で現実的な話者を生成できることを見いだした。
また,従来の手法では不可能であった音声品質に悪影響を及ぼさない,一貫した人間同定可能な効果が生じることを示す。
voxgenesis のオーディオサンプルは \url{https://bit.ly/voxgenesis} で見ることができる。
関連論文リスト
- Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Learning Speaker-specific Lip-to-Speech Generation [28.620557933595585]
本研究は,個々の話者の唇の動きの順序と発話の関連性を理解することを目的とする。
我々はディープメトリック学習を用いて時間同期を学習し、デコーダを誘導し、入力された唇の動きと同期して音声を生成する。
我々は,Grid and Lip2Wav Chemistryの講義データセットを用いて,単一話者自然言語生成タスクの評価を行った。
論文 参考訳(メタデータ) (2022-06-04T19:40:02Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Zero-Shot Long-Form Voice Cloning with Dynamic Convolution Attention [0.0]
本稿では,数秒間の参照音声からターゲット音声を再生可能な,注意に基づく音声合成システムを提案する。
長期発話への一般化は、ダイナミック・コンボリューション・アテンション(Dynamic Convolution Attention)と呼ばれるエネルギーベースのアテンション機構を用いて実現される。
音声の自然性、話者の類似性、アライメントの整合性、長い発話を合成する能力などの観点から、音声クローニングシステムの実装を比較した。
論文 参考訳(メタデータ) (2022-01-25T15:06:07Z) - Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis [18.812696623555855]
複数発話音声合成手法 (FSM-SS) を提案する。
FSM-SSは、未確認者の入力テキストと参照音声サンプルから、その人のスタイルで数ショットで音声を生成することができる。
正規化のアフィンパラメータがエネルギーや基本周波数などの韻律的特徴を捉えるのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-12-14T04:37:07Z) - From Speaker Verification to Multispeaker Speech Synthesis, Deep
Transfer with Feedback Constraint [11.982748481062542]
本稿では,マルチスピーカ音声合成のためのフィードバック制約を含むシステムを提案する。
我々は,話者検証ネットワークに係わることにより,話者検証から音声合成への知識伝達の促進に成功している。
モデルはトレーニングされ、公開されているデータセットで評価される。
論文 参考訳(メタデータ) (2020-05-10T06:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。