Fugu-MT 論文翻訳(概要): Pureformer-VC: Non-parallel One-Shot Voice Conversion with Pure Transformer Blocks and Triplet Discriminative Training

論文の概要: Pureformer-VC: Non-parallel One-Shot Voice Conversion with Pure Transformer Blocks and Triplet Discriminative Training

arxiv url: http://arxiv.org/abs/2409.01668v1
Date: Tue, 3 Sep 2024 07:21:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 02:30:20.830097
Title: Pureformer-VC: Non-parallel One-Shot Voice Conversion with Pure Transformer Blocks and Triplet Discriminative Training
Title（参考訳）: Pureformer-VC:純変圧器ブロックを用いたノンパラレルワンショット音声変換とトリプルト識別訓練
Authors: Wenhan Yao, Zedong Xing, Xiarun Chen, Jia Liu, Yongqiang He, Weiping Wen,
Abstract要約: ワンショット音声変換は、任意の音源音声の音色を変えて、未知のターゲット話者の音色を1つの音声サンプルで一致させることを目的としている。既存のスタイル転送型VC法は, 音声表現の絡み合いに頼っていた。本稿では, Conformer ブロックを用いてアンタングル化されたエンコーダを構築する Pureformer-VC と, Zipformer ブロックを用いてスタイル転送デコーダを構築する Zipformer-VC を提案する。
参考スコア（独自算出の注目度）: 3.9306467064810438
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: One-shot voice conversion(VC) aims to change the timbre of any source speech to match that of the unseen target speaker with only one speech sample. Existing style transfer-based VC methods relied on speech representation disentanglement and suffered from accurately and independently encoding each speech component and recomposing back to converted speech effectively. To tackle this, we proposed Pureformer-VC, which utilizes Conformer blocks to build a disentangled encoder, and Zipformer blocks to build a style transfer decoder as the generator. In the decoder, we used effective styleformer blocks to integrate speaker characteristics into the generated speech effectively. The models used the generative VAE loss for encoding components and triplet loss for unsupervised discriminative training. We applied the styleformer method to Zipformer's shared weights for style transfer. The experimental results show that the proposed model achieves comparable subjective scores and exhibits improvements in objective metrics compared to existing methods in a one-shot voice conversion scenario.
Abstract（参考訳）: ワンショット音声変換(VC)は、任意の音源音声の音色を変化させ、未知のターゲット話者の音色を1つの音声サンプルで一致させることを目的としている。既存の移動型VC法は, 音声表現の不整合に頼り, 各音声成分を正確にかつ独立に符号化し, 効率よく変換された音声に再コンパイルする。そこで本研究では,コンバータブロックを用いてアンタングル化されたエンコーダを構築するPureformer-VCと,スタイル転送デコーダをジェネレータとして構築するZipformerブロックを提案する。このデコーダでは, 話者特性を効果的に統合するために, 効果的なスタイルフォーマブロックを用いた。モデルは、生成的VAE損失をコンポーネントの符号化に使用し、教師なしの識別訓練に三重項損失を用いた。そこで我々はZipformerの共有重み付けにスタイルフォーマ法を適用した。実験結果から,提案手法は単発音声変換シナリオにおける既存手法と比較して,主観的スコアに匹敵する結果が得られ,客観的指標が向上することが示唆された。

関連論文リスト

Towards Better Disentanglement in Non-Autoregressive Zero-Shot Expressive Voice Conversion [53.26424100244925]
表現的音声変換は、話者識別と表現的属性の両方を対象音声から所定の音源音声に転送することを目的としている。本研究では,条件付き変分オートエンコーダを用いた自己監督型非自己回帰型フレームワークを改良する。
論文参考訳（メタデータ） (2025-06-04T14:42:12Z)
Discl-VC: Disentangled Discrete Tokens and In-Context Learning for Controllable Zero-Shot Voice Conversion [16.19865417052239]
Discl-VCはゼロショット音声変換フレームワークである。内容と韻律情報を自己教師型音声表現から切り離す。ターゲット話者の声をテキスト内学習により合成する。
論文参考訳（メタデータ） (2025-05-30T07:04:23Z)
SKQVC: One-Shot Voice Conversion by K-Means Quantization with Self-Supervised Speech Representations [12.423959479216895]
ワンショット音声変換(ワンショット音声変換、英: One-shot Voice conversion、VC)は、単一の話者発話のみを用いて、任意の2つの話者間の変換を可能にする方法である。 K平均量子化(KQ)と自己教師付き学習(SSL)機能を利用した最近の研究は、音声からコンテンツ情報をキャプチャできることを示した。本稿では,SSLの特徴と音声属性を利用した,シンプルで効果的なワンショットVCモデルを提案する。
論文参考訳（メタデータ） (2024-11-25T07:14:26Z)
Takin-VC: Zero-shot Voice Conversion via Jointly Hybrid Content and Memory-Augmented Context-Aware Timbre Modeling [14.98368067290024]
Takin-VCは、新しいゼロショットVCフレームワークである。実験結果から,Takin-VC法は最先端のゼロショットVCシステムを上回ることがわかった。
論文参考訳（メタデータ） (2024-10-02T09:07:33Z)
Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文参考訳（メタデータ） (2024-08-28T16:30:41Z)
SelfVC: Voice Conversion With Iterative Refinement using Self Transformations [42.97689861071184]
SelfVCは、自己合成例で音声変換モデルを改善するためのトレーニング戦略である。本研究では,音声信号とSSL表現から韻律情報を導出する手法を開発し,合成モデルにおける予測サブモジュールの訓練を行う。我々のフレームワークはテキストを使わずに訓練され、音声の自然性、話者の類似性、合成音声のインテリジェンス性を評価するため、ゼロショット音声変換を実現する。
論文参考訳（メタデータ） (2023-10-14T19:51:17Z)
Towards General-Purpose Text-Instruction-Guided Voice Conversion [84.78206348045428]
本稿では,「深い声調でゆっくり発声する」や「陽気な少年声で話す」といったテキスト指示によって導かれる,新しい音声変換モデルを提案する。提案したVCモデルは、離散コード列を処理するニューラルネットワークモデルであり、変換された音声のコード列を生成する。
論文参考訳（メタデータ） (2023-09-25T17:52:09Z)
Speaking Style Conversion in the Waveform Domain Using Discrete Self-Supervised Units [27.619740864818453]
録音のリズム, ピッチの輪郭, 音色を, 無音でターゲット話者に変換する新しい軽量な手法であるdisSCを紹介する。提案手法は、事前訓練された自己教師型モデルを用いて、音声を離散単位に符号化する。
論文参考訳（メタデータ） (2022-12-19T18:53:04Z)
Speech Representation Disentanglement with Adversarial Mutual Information Learning for One-shot Voice Conversion [42.43123253495082]
単一の話者の発話しか参照できないワンショット音声変換(VC)がホットな研究トピックとなっている。我々は、ピッチとコンテントエンコーダのランダムな再サンプリングを採用し、音声成分をアンタングルにするために、相互情報の差分対数比上限を用いる。 VCTKデータセットの実験では、自然性とインテリジェンスの観点から、ワンショットVCの最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-08-18T10:36:27Z)
Using multiple reference audios and style embedding constraints for speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文参考訳（メタデータ） (2021-10-09T04:24:29Z)
VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文参考訳（メタデータ） (2021-06-18T13:50:38Z)
Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文参考訳（メタデータ） (2021-06-16T15:47:06Z)
End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文参考訳（メタデータ） (2021-02-12T18:00:08Z)
Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文参考訳（メタデータ） (2020-08-06T18:29:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。