論文の概要: Voice Conversion for Stuttered Speech, Instruments, Unseen Languages and
Textually Described Voices
- arxiv url: http://arxiv.org/abs/2310.08104v1
- Date: Thu, 12 Oct 2023 08:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 11:12:01.728800
- Title: Voice Conversion for Stuttered Speech, Instruments, Unseen Languages and
Textually Described Voices
- Title(参考訳): 発声音声, 楽器, 見えない言語, テキスト記述音声の音声変換
- Authors: Matthew Baas and Herman Kamper
- Abstract要約: そこで本研究では, 音声変換, 言語間変換, 楽器変換, テキスト・ツー・ボイス変換の4つの非標準的応用について検討する。
kNN-VCは,声質変換や言語間変換において高い性能を維持していることがわかった。
楽器とテキスト・ツー・ボイス・コンバージョン・タスクでは、より複雑な結果が得られる。
- 参考スコア(独自算出の注目度): 28.998590651956153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice conversion aims to convert source speech into a target voice using
recordings of the target speaker as a reference. Newer models are producing
increasingly realistic output. But what happens when models are fed with
non-standard data, such as speech from a user with a speech impairment? We
investigate how a recent voice conversion model performs on non-standard
downstream voice conversion tasks. We use a simple but robust approach called
k-nearest neighbors voice conversion (kNN-VC). We look at four non-standard
applications: stuttered voice conversion, cross-lingual voice conversion,
musical instrument conversion, and text-to-voice conversion. The latter
involves converting to a target voice specified through a text description,
e.g. "a young man with a high-pitched voice". Compared to an established
baseline, we find that kNN-VC retains high performance in stuttered and
cross-lingual voice conversion. Results are more mixed for the musical
instrument and text-to-voice conversion tasks. E.g., kNN-VC works well on some
instruments like drums but not on others. Nevertheless, this shows that voice
conversion models - and kNN-VC in particular - are increasingly applicable in a
range of non-standard downstream tasks. But there are still limitations when
samples are very far from the training distribution. Code, samples, trained
models: https://rf5.github.io/sacair2023-knnvc-demo/.
- Abstract(参考訳): 音声変換は、対象話者の記録を基準として、音源音声を対象音声に変換することを目的としている。
新しいモデルはますます現実的な出力を生み出している。
しかし、音声障害のあるユーザーからの音声など、非標準データにモデルが供給されるとどうなるのか?
近年の音声変換モデルが非標準下流音声変換タスクにおいてどのように機能するかを検討する。
我々はk-nearest neighbors voice conversion (kNN-VC)と呼ばれる単純なアプローチを用いる。
音声変換,言語間変換,楽器変換,音声変換の4つの非標準応用について検討した。
後者は「ハイピッチな声を持つ若者」など、テキスト記述によって指定されたターゲット音声に変換される。
確立されたベースラインと比較すると,kNN-VCの音声変換性能は高い。
結果は、楽器とテキストから音声への変換タスクでより混ざっている。
例えば、kNN-VCはドラムのような楽器ではうまく機能するが、他の楽器では機能しない。
それでも、音声変換モデル(特にknn-vc)は、様々な非標準下流タスクに適用されつつあることを示している。
しかし、サンプルがトレーニング分布からかなり離れている場合、まだ制限がある。
コード、サンプル、トレーニングされたモデル: https://rf5.github.io/sacair2023-knnvc-demo/。
関連論文リスト
- Towards General-Purpose Text-Instruction-Guided Voice Conversion [84.78206348045428]
本稿では,「深い声調でゆっくり発声する」や「陽気な少年声で話す」といったテキスト指示によって導かれる,新しい音声変換モデルを提案する。
提案したVCモデルは、離散コード列を処理するニューラルネットワークモデルであり、変換された音声のコード列を生成する。
論文 参考訳(メタデータ) (2023-09-25T17:52:09Z) - Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale [58.46845567087977]
Voiceboxは、大規模音声のための最も多用途なテキスト誘導生成モデルである。
モノまたはクロスランガルのゼロショットテキスト音声合成、ノイズ除去、コンテンツ編集、スタイル変換、多様なサンプル生成に使用できる。
最先端のゼロショットTSモデルであるVALL-E(5.9%対1.9%のワードエラー率)とオーディオの類似性(0.580対0.681)は20倍高速である。
論文 参考訳(メタデータ) (2023-06-23T16:23:24Z) - Voice Conversion With Just Nearest Neighbors [22.835346602837063]
任意の音声変換は、ターゲット話者のわずかな例を参照として、ソース音声をターゲット音声に変換することを目的としている。
我々はk-nearest neighbors voice conversion (kNN-VC)を提案する。
論文 参考訳(メタデータ) (2023-05-30T12:19:07Z) - HiFi-VC: High Quality ASR-Based Voice Conversion [0.0]
音声変換パイプラインを新たに提案する。
提案手法では,音声認識機能,ピッチ追跡,最先端波形予測モデルを用いる。
論文 参考訳(メタデータ) (2022-03-31T10:45:32Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for
Natural-Sounding Voice Conversion [19.74933410443264]
本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた教師なし多人数音声変換手法を提案する。
私たちのモデルは20人の英語話者でしか訓練されていません。
音声変換タスク、例えば、非対人、言語横断、歌唱などのタスクに一般化する。
論文 参考訳(メタデータ) (2021-07-21T23:44:17Z) - NVC-Net: End-to-End Adversarial Voice Conversion [7.14505983271756]
NVC-Netは、任意の長さの生音声波形上で直接音声変換を行うエンド・ツー・エンドの敵対ネットワークである。
我々のモデルはNVIDIA V100 GPU上で3600kHz以上の速度でサンプルを生成することができ、最先端の手法よりも桁違いに高速である。
論文 参考訳(メタデータ) (2021-06-02T07:19:58Z) - What all do audio transformer models hear? Probing Acoustic
Representations for Language Delivery and its Structure [64.54208910952651]
オーディオトランスフォーマーモデル mockingjay と wave2vec2.0 を比較した。
音声モデルのテキスト表面、構文、および意味的特徴に対する理解を調査します。
ネイティブ、非ネイティブ、合成、読み取り、自発的な音声データセットの完全な設定でこれを行います。
論文 参考訳(メタデータ) (2021-01-02T06:29:12Z) - The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS [66.06385966689965]
本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
論文 参考訳(メタデータ) (2020-10-06T02:27:38Z) - VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture [71.45920122349628]
自動エンコーダベースのVC手法は、話者のアイデンティティを付与することなく、入力音声中の話者とコンテンツをアンタングルする。
自動エンコーダベースのVCシステムでは,U-Netアーキテクチャを用いて音質を向上する。
論文 参考訳(メタデータ) (2020-06-07T14:01:16Z) - Vocoder-free End-to-End Voice Conversion with Transformer Network [5.5792083698526405]
メル周波数フィルタバンク(MFB)に基づく手法は,MFBが特徴量が少ないため,生スペクトルと比較して学習音声の利点がある。
生のスペクトルと位相のみを用いて、明瞭な発音で異なるスタイルの音声を生成することができる。
本稿では,トランスネットワークを用いたヴォコーダフリーのエンドツーエンド音声変換手法を提案する。
論文 参考訳(メタデータ) (2020-02-05T06:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。