論文の概要: PerMod: Perceptually Grounded Voice Modification with Latent Diffusion
Models
- arxiv url: http://arxiv.org/abs/2312.08494v1
- Date: Wed, 13 Dec 2023 20:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 03:01:54.176505
- Title: PerMod: Perceptually Grounded Voice Modification with Latent Diffusion
Models
- Title(参考訳): PerMod:潜在拡散モデルを用いた知覚的音声修正
- Authors: Robin Netzorg, Ajil Jalal, Luna McNulty, Gopala Krishna Anumanchipalli
- Abstract要約: PerModは、入力音声と知覚品質ベクトルを取り込む条件付き潜在拡散モデルである。
以前の作業とは異なり、PerModは特定の知覚的修正に対応する新しい音声を生成する。
我々は、PerModが典型音声に対して望まれる知覚特性を持つ音声を生成するが、非典型音声では不十分であることを示す。
- 参考スコア(独自算出の注目度): 5.588733538696248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perceptual modification of voice is an elusive goal. While non-experts can
modify an image or sentence perceptually with available tools, it is not clear
how to similarly modify speech along perceptual axes. Voice conversion does
make it possible to convert one voice to another, but these modifications are
handled by black box models, and the specifics of what perceptual qualities to
modify and how to modify them are unclear. Towards allowing greater perceptual
control over voice, we introduce PerMod, a conditional latent diffusion model
that takes in an input voice and a perceptual qualities vector, and produces a
voice with the matching perceptual qualities. Unlike prior work, PerMod
generates a new voice corresponding to specific perceptual modifications.
Evaluating perceptual quality vectors with RMSE from both human and predicted
labels, we demonstrate that PerMod produces voices with the desired perceptual
qualities for typical voices, but performs poorly on atypical voices.
- Abstract(参考訳): 音声の知覚的修正は、難解な目標である。
非専門家は、利用可能なツールでイメージや文を知覚的に修正することができるが、知覚軸に沿って音声を同じように修正する方法は明確ではない。
音声変換は、ある声を別の声に変換することができるが、これらの修正はブラックボックスモデルによって処理される。
入力音声と知覚品質ベクトルを取り込む条件付き潜在拡散モデルであるpermodを導入し、それと一致する知覚品質を持つ音声を生成する。
以前の作業とは異なり、PerModは特定の知覚的修正に対応する新しい音声を生成する。
人間と予測されたラベルからRMSEを用いて知覚品質ベクターを評価することで、PerModが典型的音声に対して所望の知覚品質を持つ音声を生成できるが、非定型音声では不十分であることを示す。
関連論文リスト
- uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-02T04:36:39Z) - Automatic Speech Disentanglement for Voice Conversion using Rank Module
and Speech Augmentation [4.961389445237138]
音声変換(VC)は、ソース音声の音声を、ソースの内容を維持しながらターゲットの音声に変換する。
本稿では,2つの拡張関数のみを用いて,音声を4成分に自動的に切り離すVCモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T13:28:06Z) - HiFi-VC: High Quality ASR-Based Voice Conversion [0.0]
音声変換パイプラインを新たに提案する。
提案手法では,音声認識機能,ピッチ追跡,最先端波形予測モデルを用いる。
論文 参考訳(メタデータ) (2022-03-31T10:45:32Z) - Toward Degradation-Robust Voice Conversion [94.60503904292916]
あらゆる音声変換技術は、発話の発声音を訓練中に見つからないあらゆる話者に変換する。
話者の清潔な発話を収集することは困難であり、通常はノイズや残響によって劣化する。
本稿では,任意の音声変換の頑健性の劣化に関する総合的研究を報告する。
論文 参考訳(メタデータ) (2021-10-14T17:00:34Z) - Many-to-Many Voice Conversion based Feature Disentanglement using
Variational Autoencoder [2.4975981795360847]
そこで本稿では,多くの音声変換に対処するために,特徴のゆがみに基づく新しい手法を提案する。
本手法は、話者のアイデンティティと言語内容とを発話から切り離す能力を有する。
多くのソーススピーカーから単一のオートエンコーダネットワークで多くのターゲットスピーカーに変換することができる。
論文 参考訳(メタデータ) (2021-07-11T13:31:16Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Defending Your Voice: Adversarial Attack on Voice Conversion [70.19396655909455]
音声変換に対する対人攻撃を最初に行う試みについて報告する。
音声を守らなければならない話者の発話に、人間の騒音が知覚できないことを紹介する。
その結果, 変換された発話の話者特性は, 防御された話者と明らかに異なることがわかった。
論文 参考訳(メタデータ) (2020-05-18T14:51:54Z) - VoiceCoach: Interactive Evidence-based Training for Voice Modulation
Skills in Public Speaking [55.366941476863644]
ピッチ,ボリューム,速度などの音声特性の変調は,公的な発話を成功させる上で極めて重要である。
音声変調スキルの効果的な訓練を容易にする対話型エビデンスに基づくアプローチであるVoiceCoachを提案する。
論文 参考訳(メタデータ) (2020-01-22T04:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。