論文の概要: StarGAN-based Emotional Voice Conversion for Japanese Phrases
- arxiv url: http://arxiv.org/abs/2104.01807v1
- Date: Mon, 5 Apr 2021 08:08:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:26:37.725133
- Title: StarGAN-based Emotional Voice Conversion for Japanese Phrases
- Title(参考訳): StarGANを用いた日本語句の感情音声変換
- Authors: Asuka Moritani, Ryo Ozaki, Shoki Sakamoto, Hirokazu Kameoka, Tadahiro
Taniguchi
- Abstract要約: 本稿では,基本周波数と周期処理を最小限とするECVタスクへのStarGAN-VCの直接適用について述べる。
日本語句のECVを実現する能力の観点から,StarGAN-EVCシステムの性能評価を行った。
- 参考スコア(独自算出の注目度): 21.744944745205416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper shows that StarGAN-VC, a spectral envelope transformation method
for non-parallel many-to-many voice conversion (VC), is capable of emotional VC
(EVC). Although StarGAN-VC has been shown to enable speaker identity
conversion, its capability for EVC for Japanese phrases has not been clarified.
In this paper, we describe the direct application of StarGAN-VC to an EVC task
with minimal fundamental frequency and aperiodicity processing. Through
subjective evaluation experiments, we evaluated the performance of our
StarGAN-EVC system in terms of its ability to achieve EVC for Japanese phrases.
The subjective evaluation is conducted in terms of subjective classification
and mean opinion score of neutrality and similarity. In addition, the
interdependence between the source and target emotional domains was
investigated from the perspective of the quality of EVC.
- Abstract(参考訳): 本稿では,非並列多対多音声変換(VC)のためのスペクトルエンベロープ変換法であるStarGAN-VCが,感情的VC(EVC)を実現することを示す。
StarGAN-VCは話者識別変換を可能にすることが示されているが、日本語句のECV能力は明らかになっていない。
本稿では,基本周波数と非周期処理を最小としたevcタスクへのstargan-vcの直接適用について述べる。
主観評価実験を通じて,日本語句のECVを実現する能力の観点から,StarGAN-EVCシステムの性能評価を行った。
主観的評価は、主観的分類と中立性と類似性の平均的意見スコアの観点から行われる。
また, EVCの品質の観点から, ソースとターゲットの感情領域の相互依存性について検討した。
関連論文リスト
- End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [55.525125193856084]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。
これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。
また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文 参考訳(メタデータ) (2023-08-07T09:06:20Z) - Exploring Opinion-unaware Video Quality Assessment with Semantic
Affinity Criterion [52.07084862209754]
コントラッシブ言語画像事前学習モデルにおけるテキストプロンプトを用いた意見認識型VQAに対する明示的セマンティック親和性指標を提案する。
また、ガウス正規化とシグモイド再スケーリング戦略を通じて、異なる伝統的な低レベル自然度指数を集約する。
The proposed Blind Unified Opinion-Unaware Video Quality Index via Semantic and Technical Metric Aggregation (BUONA-VISTA)は、既存の意見不明のVQA手法を少なくとも20%改善した。
論文 参考訳(メタデータ) (2023-02-26T08:46:07Z) - Boosting Star-GANs for Voice Conversion with Contrastive Discriminator [31.63303422339832]
SimSiam-StarGAN-VCは、StarGAN識別器の効率的なネットワーク構造である。
SimSiam-StarGAN-VCはトレーニングの安定性を高め、差別者が過度に適合する問題を効果的に防止する。
以上の結果から,SimSiam-StarGAN-VCは既存のStarGAN-VC法よりも主観的,主観的の両方で優れていた。
論文 参考訳(メタデータ) (2022-09-21T03:34:22Z) - A Comparative Study of Self-supervised Speech Representation Based Voice
Conversion [47.250866153881645]
本稿では、自己教師型音声表現(S3R)に基づく音声変換(VC)の大規模比較研究について述べる。
モデルタイプ,多言語性,監督など,S3RベースのVCについて検討した。
また,k-meansによる減量後処理の効果について検討し,A2A設定でどのように改善するかを示した。
論文 参考訳(メタデータ) (2022-07-10T01:02:22Z) - Conditional Deep Hierarchical Variational Autoencoder for Voice
Conversion [5.538544897623972]
変分オートエンコーダに基づく音声変換(VAE-VC)は、訓練のために音声と話者ラベルのペアだけを必要とする利点がある。
本稿では, モデル表現性の増加がVAE-VCに与える影響について検討する。
論文 参考訳(メタデータ) (2021-12-06T05:54:11Z) - StarGAN-VC+ASR: StarGAN-based Non-Parallel Voice Conversion Regularized
by Automatic Speech Recognition [23.75478998795749]
モデル学習を支援するために自動音声認識を提案する。
本稿では,提案手法を用いることで,Vanilla StarGAN-VCよりも言語情報を保持できることを示す。
論文 参考訳(メタデータ) (2021-08-10T01:18:31Z) - An Improved StarGAN for Emotional Voice Conversion: Enhancing Voice
Quality and Data Augmentation [8.017817904347964]
本稿では,感情に依存しない感情の特徴を分離する2段階のトレーニングプロセスとともに,新たなStarGANフレームワークを提案する。
提案モデルでは, 客観評価と主観評価の両面において, 歪みの両面から良好な結果が得られる。
エンドツーエンドの音声感情認識のためのデータ拡張実験において、提案したStarGANモデルは、Micro-F1では2%、Macro-F1では5%の増加を達成する。
論文 参考訳(メタデータ) (2021-07-18T04:28:47Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - VAW-GAN for Disentanglement and Recomposition of Emotional Elements in
Speech [91.92456020841438]
変分自己符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)による音声の感情要素のアンタングル化と再分解について検討する。
本稿では,2つのVAW-GANパイプライン,1つはスペクトル変換,もう1つは韻律変換を含む話者依存型ECVフレームワークを提案する。
提案手法の有効性を客観評価と主観評価の両方で検証した。
論文 参考訳(メタデータ) (2020-11-03T08:49:33Z) - Unsupervised Representation Disentanglement using Cross Domain Features
and Adversarial Learning in Variational Autoencoder based Voice Conversion [28.085498706505774]
音声変換(VC)の効果的なアプローチは、音声信号の他のコンポーネントから言語内容を切り離すことである。
本稿では,逆学習の概念を取り入れ,CDVAE-VCフレームワークを拡張した。
論文 参考訳(メタデータ) (2020-01-22T02:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。