論文の概要: Nonparallel Voice Conversion with Augmented Classifier Star Generative
Adversarial Networks
- arxiv url: http://arxiv.org/abs/2008.12604v7
- Date: Tue, 10 Nov 2020 09:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 08:20:26.588389
- Title: Nonparallel Voice Conversion with Augmented Classifier Star Generative
Adversarial Networks
- Title(参考訳): 拡張分類器スター生成型adversarial networkを用いた非並列音声変換
- Authors: Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo
- Abstract要約: 我々は以前に、StarGANと呼ばれるGAN(Generative Adversarial Network)の変種を用いて、非並列音声変換(VC)を可能にする方法を提案した。
StarGAN-VCと呼ばれる本手法の主な特徴は以下の通りである。
本稿では,新たに導入された「Augmented Classifier StarGAN (A-StarGAN)」を含む3つのStarGANの定式化と,これらを非並列VCタスクで比較する。
- 参考スコア(独自算出の注目度): 41.87886753817764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We previously proposed a method that allows for nonparallel voice conversion
(VC) by using a variant of generative adversarial networks (GANs) called
StarGAN. The main features of our method, called StarGAN-VC, are as follows:
First, it requires no parallel utterances, transcriptions, or time alignment
procedures for speech generator training. Second, it can simultaneously learn
mappings across multiple domains using a single generator network and thus
fully exploit available training data collected from multiple domains to
capture latent features that are common to all the domains. Third, it can
generate converted speech signals quickly enough to allow real-time
implementations and requires only several minutes of training examples to
generate reasonably realistic-sounding speech. In this paper, we describe three
formulations of StarGAN, including a newly introduced novel StarGAN variant
called "Augmented classifier StarGAN (A-StarGAN)", and compare them in a
nonparallel VC task. We also compare them with several baseline methods.
- Abstract(参考訳): 我々は以前に、StarGANと呼ばれるGAN(Generative Adversarial Network)の変種を用いて、非並列音声変換(VC)を可能にする方法を提案した。
stargan-vc法の主な特徴は以下のとおりである。 まず、音声生成訓練のために並列発話、転写、時間アライメントの手順を必要としない。
第二に、単一のジェネレータネットワークを使用して複数のドメイン間のマッピングを同時に学習し、複数のドメインから収集されたトレーニングデータをフル活用して、すべてのドメインに共通する潜伏した特徴をキャプチャする。
第3に、リアルタイム実装を可能にするのに十分な速さで変換された音声信号を生成でき、合理的に現実的な音声を生成するためのトレーニング例をほんの数分しか必要としない。
本稿では,新たに導入されたstargan変種である"augmented classifier stargan (a-stargan)"を含むstarganの3つの定式化を,非並列vcタスクで比較する。
また,いくつかのベースライン手法と比較した。
関連論文リスト
- Generalized One-shot Domain Adaption of Generative Adversarial Networks [72.84435077616135]
GAN(Generative Adversarial Network)の適応は、事前訓練されたGANを、限られたトレーニングデータを持つ特定のドメインに転送することを目的としている。
我々は、ソースドメインからターゲットドメインへの適応を、テクスチャや色といったグローバルなスタイルの移行と、ソースドメインに属さない新しいエンティティの出現の2つの部分に分離できると考えている。
我々の中核的な目的は、参照と合成の内部分布のギャップをワッサーシュタイン距離によって制限することである。
論文 参考訳(メタデータ) (2022-09-08T09:24:44Z) - The ReprGesture entry to the GENEA Challenge 2022 [8.081712389287903]
本稿では,2022年における非言語的エージェント(GENEA)のための行動生成と評価のためのReprGestureの取り組みについて述べる。
GENEAチャレンジは、処理されたデータセットを提供し、さまざまなジェスチャー生成システムのパフォーマンスを比較するためにクラウドソースによる評価を行う。
論文 参考訳(メタデータ) (2022-08-25T14:50:50Z) - Zero-Shot Logit Adjustment [89.68803484284408]
Generalized Zero-Shot Learning (GZSL) は意味記述に基づく学習技術である。
本稿では,分類器の改良を無視しつつ,ジェネレータの効果を高める新しい世代ベース手法を提案する。
実験により,提案手法が基本生成器と組み合わせた場合の最先端化を実現し,様々なゼロショット学習フレームワークを改良できることが実証された。
論文 参考訳(メタデータ) (2022-04-25T17:54:55Z) - StarGAN-VC+ASR: StarGAN-based Non-Parallel Voice Conversion Regularized
by Automatic Speech Recognition [23.75478998795749]
モデル学習を支援するために自動音声認識を提案する。
本稿では,提案手法を用いることで,Vanilla StarGAN-VCよりも言語情報を保持できることを示す。
論文 参考訳(メタデータ) (2021-08-10T01:18:31Z) - StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators [63.85888518950824]
生成モデルを新しいドメインに移行できるテキスト駆動方式を提案する。
自然言語のプロンプトと数分の訓練によって、我々の手法は複数のドメインにまたがってジェネレータを適応させることができることを示す。
論文 参考訳(メタデータ) (2021-08-02T14:46:46Z) - StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for
Natural-Sounding Voice Conversion [19.74933410443264]
本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた教師なし多人数音声変換手法を提案する。
私たちのモデルは20人の英語話者でしか訓練されていません。
音声変換タスク、例えば、非対人、言語横断、歌唱などのタスクに一般化する。
論文 参考訳(メタデータ) (2021-07-21T23:44:17Z) - DINO: A Conditional Energy-Based GAN for Domain Translation [67.9879720396872]
ドメイン翻訳は、共通のセマンティクスを維持しながら、あるドメインから別のドメインにデータを変換するプロセスです。
最も人気のあるドメイン翻訳システムは条件付き生成逆数ネットワークに基づいている。
本稿では,2つのネットワークを同時に教師付きで訓練し,反対方向のドメイン翻訳を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-18T11:52:45Z) - On Efficient Training, Controllability and Compositional Generalization
of Insertion-based Language Generators [18.98725770517241]
InsNetは挿入ベースのシーケンスモデルで、トランスフォーマーデコーダと同じくらい効率的にトレーニングできる。
InsNetのストーリー生成とCleVR-CoGENTキャプションの評価を行った。
論文 参考訳(メタデータ) (2021-02-12T11:05:02Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Improving GANs for Speech Enhancement [19.836041050328102]
マルチステージエンハンスメントマッピングを行うために,複数のジェネレータをチェーン化することを提案する。
提案手法は, 1段SEGANベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-01-15T19:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。