論文の概要: Voice Conversion With Just Nearest Neighbors
- arxiv url: http://arxiv.org/abs/2305.18975v1
- Date: Tue, 30 May 2023 12:19:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 16:33:11.983335
- Title: Voice Conversion With Just Nearest Neighbors
- Title(参考訳): 隣人だけに近づいた音声変換
- Authors: Matthew Baas, Benjamin van Niekerk, Herman Kamper
- Abstract要約: 任意の音声変換は、ターゲット話者のわずかな例を参照として、ソース音声をターゲット音声に変換することを目的としている。
我々はk-nearest neighbors voice conversion (kNN-VC)を提案する。
- 参考スコア(独自算出の注目度): 22.835346602837063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Any-to-any voice conversion aims to transform source speech into a target
voice with just a few examples of the target speaker as a reference. Recent
methods produce convincing conversions, but at the cost of increased complexity
-- making results difficult to reproduce and build on. Instead, we keep it
simple. We propose k-nearest neighbors voice conversion (kNN-VC): a
straightforward yet effective method for any-to-any conversion. First, we
extract self-supervised representations of the source and reference speech. To
convert to the target speaker, we replace each frame of the source
representation with its nearest neighbor in the reference. Finally, a
pretrained vocoder synthesizes audio from the converted representation.
Objective and subjective evaluations show that kNN-VC improves speaker
similarity with similar intelligibility scores to existing methods. Code,
samples, trained models: https://bshall.github.io/knn-vc
- Abstract(参考訳): 任意の音声変換は、ターゲット話者のわずかな例を参照として、ソース音声をターゲット音声に変換することを目的としている。
最近の手法は説得力のある変換を生み出すが、複雑さが増大するコストがかかるため、結果の再現と構築が困難になる。
その代わり、私たちはシンプルに保ちます。
我々はk-nearest neighbors voice conversion (kNN-VC)を提案する。
まず、ソースと参照音声の自己教師付き表現を抽出する。
対象話者に変換するために、参照において、ソース表現の各フレームを最も近い隣人に置き換える。
最後に、事前訓練されたボコーダが変換された表現から音声を合成する。
主観的および主観的評価は,kNN-VCが既存手法と類似した聞きやすさを向上することを示す。
コード、サンプル、トレーニングされたモデル: https://bshall.github.io/knn-vc
関連論文リスト
- Improving Pronunciation and Accent Conversion through Knowledge Distillation And Synthetic Ground-Truth from Native TTS [52.89324095217975]
アクセント変換に対する従来のアプローチは主に非ネイティブ音声をよりネイティブにすることを目的としていた。
我々は、アクセント変換だけでなく、非ネイティブアクセント話者の発音を改善する新しいACアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-19T06:12:31Z) - Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Pureformer-VC: Non-parallel One-Shot Voice Conversion with Pure Transformer Blocks and Triplet Discriminative Training [3.9306467064810438]
ワンショット音声変換は、ターゲット話者の音色を1つの音声サンプルで一致させるために、任意の音源音声の音色を変更することを目的としている。
既存のスタイル転送型VC法は, 音声表現の絡み合いに頼っていた。
本稿では, Conformer ブロックを用いてアンタングル化されたエンコーダを構築する Pureformer-VC と, Zipformer ブロックを用いてスタイル転送デコーダを構築する Zipformer-VC を提案する。
論文 参考訳(メタデータ) (2024-09-03T07:21:19Z) - Voice Conversion for Stuttered Speech, Instruments, Unseen Languages and
Textually Described Voices [28.998590651956153]
そこで本研究では, 音声変換, 言語間変換, 楽器変換, テキスト・ツー・ボイス変換の4つの非標準的応用について検討する。
kNN-VCは,声質変換や言語間変換において高い性能を維持していることがわかった。
楽器とテキスト・ツー・ボイス・コンバージョン・タスクでは、より複雑な結果が得られる。
論文 参考訳(メタデータ) (2023-10-12T08:00:25Z) - Catch You and I Can: Revealing Source Voiceprint Against Voice
Conversion [0.0]
音声変換法で合成した音声から高クレジットで音源を復元する試みを初めて行った。
変換された音声サンプルから音源話者の音声プリントを効果的に抽出する表現学習モデルであるRevelioを開発した。
論文 参考訳(メタデータ) (2023-02-24T03:33:13Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos [54.08224321456871]
このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元の話者のビデオを生成するように設計されている。
パイプラインは強調検出を含む自動音声認識から始まり、その後に翻訳モデルが続く。
得られた合成音声は、音声変換モデルを用いて元の話者の声にマッピングされる。
論文 参考訳(メタデータ) (2022-06-09T14:15:37Z) - StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for
Natural-Sounding Voice Conversion [19.74933410443264]
本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた教師なし多人数音声変換手法を提案する。
私たちのモデルは20人の英語話者でしか訓練されていません。
音声変換タスク、例えば、非対人、言語横断、歌唱などのタスクに一般化する。
論文 参考訳(メタデータ) (2021-07-21T23:44:17Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - NVC-Net: End-to-End Adversarial Voice Conversion [7.14505983271756]
NVC-Netは、任意の長さの生音声波形上で直接音声変換を行うエンド・ツー・エンドの敵対ネットワークである。
我々のモデルはNVIDIA V100 GPU上で3600kHz以上の速度でサンプルを生成することができ、最先端の手法よりも桁違いに高速である。
論文 参考訳(メタデータ) (2021-06-02T07:19:58Z) - VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture [71.45920122349628]
自動エンコーダベースのVC手法は、話者のアイデンティティを付与することなく、入力音声中の話者とコンテンツをアンタングルする。
自動エンコーダベースのVCシステムでは,U-Netアーキテクチャを用いて音質を向上する。
論文 参考訳(メタデータ) (2020-06-07T14:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。