論文の概要: CycleTransGAN-EVC: A CycleGAN-based Emotional Voice Conversion Model
with Transformer
- arxiv url: http://arxiv.org/abs/2111.15159v1
- Date: Tue, 30 Nov 2021 06:33:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 02:42:42.644132
- Title: CycleTransGAN-EVC: A CycleGAN-based Emotional Voice Conversion Model
with Transformer
- Title(参考訳): cycletransgan-evc: トランスフォーマー付きサイクルガンに基づく感情音声変換モデル
- Authors: Changzeng Fu, Chaoran Liu, Carlos Toshinori Ishi, Hiroshi Ishiguro
- Abstract要約: 本稿では,CycleGANに基づくトランスフォーマーモデルを提案し,感情音声変換タスクにおけるその能力について検討する。
トレーニング手順では、カリキュラム学習を採用し、フレーム長を徐々に増加させ、短いセグメントからスピーチ全体までモデルを見ることができるようにします。
その結果,提案モデルでは,より強みと質の高い感情を変換できることがわかった。
- 参考スコア(独自算出の注目度): 11.543807097834785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we explore the transformer's ability to capture
intra-relations among frames by augmenting the receptive field of models.
Concretely, we propose a CycleGAN-based model with the transformer and
investigate its ability in the emotional voice conversion task. In the training
procedure, we adopt curriculum learning to gradually increase the frame length
so that the model can see from the short segment till the entire speech. The
proposed method was evaluated on the Japanese emotional speech dataset and
compared to several baselines (ACVAE, CycleGAN) with objective and subjective
evaluations. The results show that our proposed model is able to convert
emotion with higher strength and quality.
- Abstract(参考訳): 本研究では,モデルの受容場を増大させ,フレーム間の関係を捉えるトランスフォーマーの能力について検討する。
具体的には、トランスを用いたCycleGANに基づくモデルを提案し、感情音声変換におけるその能力について検討する。
トレーニング手順では、カリキュラム学習を採用し、フレーム長を徐々に増加させ、短いセグメントからスピーチ全体までモデルを見ることができるようにします。
提案手法は日本語感情音声データセット上で評価され,客観的および主観的評価の複数のベースライン (acvae, cyclegan) と比較した。
その結果,提案モデルでは,より強みと質の高い感情を変換できることがわかった。
関連論文リスト
- Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity [11.302828987873497]
本稿では,変換器モデルを線形時間置換器に変換し,目標タスクに微調整するクロスアーキテクチャ層蒸留(CALD)手法を提案する。
そこで本研究では,CALDが元のモデルの結果を効果的に回収できることを示す。
論文 参考訳(メタデータ) (2024-10-09T13:06:43Z) - CSLP-AE: A Contrastive Split-Latent Permutation Autoencoder Framework
for Zero-Shot Electroencephalography Signal Conversion [49.1574468325115]
脳波分析の鍵となる目的は、基礎となる神経活動(コンテンツ)を抽出し、個体の変動(スタイル)を考慮することである。
近年の音声変換技術の発展に触発されて,脳波変換を直接最適化するCSLP-AEフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-13T22:46:43Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - An Improved StarGAN for Emotional Voice Conversion: Enhancing Voice
Quality and Data Augmentation [8.017817904347964]
本稿では,感情に依存しない感情の特徴を分離する2段階のトレーニングプロセスとともに,新たなStarGANフレームワークを提案する。
提案モデルでは, 客観評価と主観評価の両面において, 歪みの両面から良好な結果が得られる。
エンドツーエンドの音声感情認識のためのデータ拡張実験において、提案したStarGANモデルは、Micro-F1では2%、Macro-F1では5%の増加を達成する。
論文 参考訳(メタデータ) (2021-07-18T04:28:47Z) - Axial Residual Networks for CycleGAN-based Voice Conversion [0.0]
非並列音声変換のための新しいアーキテクチャと訓練目標の改善を提案する。
提案するCycleGANモデルでは,高周波数分解能大スペクトルから直接形状保存変換を行う。
実験により,提案モデルがサイクロンよりも優れており,ニューラルボコーダを使わずにcyclegan-vc2と同等の性能を示すことを示した。
論文 参考訳(メタデータ) (2021-02-16T10:55:35Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Non-parallel Emotion Conversion using a Deep-Generative Hybrid Network
and an Adversarial Pair Discriminator [16.18921154013272]
本稿では,並列学習データを必要としない音声における感情変換手法を提案する。
従来のサイクルGANとは異なり、我々の判別器は1対の入力実と生成されたサンプルが所望の感情変換に対応するかどうかを分類する。
本稿では,Wavenet が生成した音声を改良することにより,新しい話者に一般化することを示す。
論文 参考訳(メタデータ) (2020-07-25T13:50:00Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z) - EEG based Continuous Speech Recognition using Transformers [13.565270550358397]
エンド・ツー・エンド・エンド・トランスフォーマーを用いた自動音声認識(ASR)モデルを用いて,脳波特徴量を用いた連続音声認識について検討した。
その結果, トランスフォーマーを用いたモデルでは, 繰り返しニューラルネットワーク(RNN)に基づくシーケンス・ツー・シーケンス脳波モデルと比較して, トレーニングの高速化が示されている。
論文 参考訳(メタデータ) (2019-12-31T08:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。