論文の概要: StarGAN-VC+ASR: StarGAN-based Non-Parallel Voice Conversion Regularized
by Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2108.04395v1
- Date: Tue, 10 Aug 2021 01:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 14:17:26.805273
- Title: StarGAN-VC+ASR: StarGAN-based Non-Parallel Voice Conversion Regularized
by Automatic Speech Recognition
- Title(参考訳): StarGAN-VC+ASR: 音声認識による非並列音声変換
- Authors: Shoki Sakamoto, Akira Taniguchi, Tadahiro Taniguchi, Hirokazu Kameoka
- Abstract要約: モデル学習を支援するために自動音声認識を提案する。
本稿では,提案手法を用いることで,Vanilla StarGAN-VCよりも言語情報を保持できることを示す。
- 参考スコア(独自算出の注目度): 23.75478998795749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preserving the linguistic content of input speech is essential during voice
conversion (VC). The star generative adversarial network-based VC method
(StarGAN-VC) is a recently developed method that allows non-parallel
many-to-many VC. Although this method is powerful, it can fail to preserve the
linguistic content of input speech when the number of available training
samples is extremely small. To overcome this problem, we propose the use of
automatic speech recognition to assist model training, to improve StarGAN-VC,
especially in low-resource scenarios.
Experimental results show that using our proposed method, StarGAN-VC can
retain more linguistic information than vanilla StarGAN-VC.
- Abstract(参考訳): 音声変換(VC)において,入力音声の言語内容の保存が不可欠である。
stargenerative adversarial network-based vc method(stargan-vc)は、非並列多対多vcを可能にする手法である。
この方法は強力であるが、利用可能な訓練サンプルの数が極めて少ない場合、入力音声の言語的内容の保存に失敗する可能性がある。
この問題を克服するために,モデル学習支援,特に低リソースシナリオにおけるstargan-vc改善のための自動音声認識の利用を提案する。
実験の結果,提案手法を用いることで,Vanilla StarGAN-VCよりも言語情報を保持できることがわかった。
関連論文リスト
- Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - HiFi-VC: High Quality ASR-Based Voice Conversion [0.0]
音声変換パイプラインを新たに提案する。
提案手法では,音声認識機能,ピッチ追跡,最先端波形予測モデルを用いる。
論文 参考訳(メタデータ) (2022-03-31T10:45:32Z) - Voice Conversion Can Improve ASR in Very Low-Resource Settings [32.170748231414365]
本稿では,低音源音声認識を改善するために,VCシステムが言語横断的に利用できるかどうかを検討する。
私たちは、英語で実践的なVCシステムを設計し、訓練するために、最近のいくつかのテクニックを組み合わせています。
その結果,低リソース言語4言語すべてにおいて,有意な量の拡張データを使用する場合,音声認識性能が向上することが判明した。
論文 参考訳(メタデータ) (2021-11-04T07:57:00Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - StarGAN-ZSVC: Towards Zero-Shot Voice Conversion in Low-Resource
Contexts [32.170748231414365]
より広い範囲の文脈で有効にするためには、音声変換システムは並列データにアクセスせずに訓練する必要がある。
本稿では,GAN(Generative Adversarial Network)に基づく最新の音声変換モデルを拡張する。
非常に少ないデータで訓練されたモデルであっても、リアルタイムゼロショット音声変換が可能であることを示す。
論文 参考訳(メタデータ) (2021-05-31T18:21:28Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - An Adaptive Learning based Generative Adversarial Network for One-To-One
Voice Conversion [9.703390665821463]
本稿では,効率の良い1対1話者VCのための適応学習型GANモデルであるALGAN-VCを提案する。
このモデルは、Voice Conversion Challenge (VCC) 2016、2018、2020データセット、および自己準備のスピーチデータセットでテストされています。
生成音声サンプルの主観的および客観的評価は,提案モデルが音声変換タスクをエレガントに実行していることを示した。
論文 参考訳(メタデータ) (2021-04-25T13:44:32Z) - Nonparallel Voice Conversion with Augmented Classifier Star Generative
Adversarial Networks [41.87886753817764]
我々は以前に、StarGANと呼ばれるGAN(Generative Adversarial Network)の変種を用いて、非並列音声変換(VC)を可能にする方法を提案した。
StarGAN-VCと呼ばれる本手法の主な特徴は以下の通りである。
本稿では,新たに導入された「Augmented Classifier StarGAN (A-StarGAN)」を含む3つのStarGANの定式化と,これらを非並列VCタスクで比較する。
論文 参考訳(メタデータ) (2020-08-27T10:30:05Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture [71.45920122349628]
自動エンコーダベースのVC手法は、話者のアイデンティティを付与することなく、入力音声中の話者とコンテンツをアンタングルする。
自動エンコーダベースのVCシステムでは,U-Netアーキテクチャを用いて音質を向上する。
論文 参考訳(メタデータ) (2020-06-07T14:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。