論文の概要: MFCCGAN: A Novel MFCC-Based Speech Synthesizer Using Adversarial
Learning
- arxiv url: http://arxiv.org/abs/2306.12785v1
- Date: Thu, 22 Jun 2023 10:29:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 14:57:49.622444
- Title: MFCCGAN: A Novel MFCC-Based Speech Synthesizer Using Adversarial
Learning
- Title(参考訳): MFCCGAN: 逆学習を用いた新しいMFCCベース音声合成装置
- Authors: Mohammad Reza Hasanabadi Majid Behdad Davood Gharavian
- Abstract要約: 対戦型学習に基づく新しい音声合成システムとして, MFCCGANを導入する。
規則に基づく MFCC ベースの音声合成器 WORLD よりも高知能な音声を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we introduce MFCCGAN as a novel speech synthesizer based on
adversarial learning that adopts MFCCs as input and generates raw speech
waveforms. Benefiting the GAN model capabilities, it produces speech with
higher intelligibility than a rule-based MFCC-based speech synthesizer WORLD.
We evaluated the model based on a popular intrusive objective speech
intelligibility measure (STOI) and quality (NISQA score). Experimental results
show that our proposed system outperforms Librosa MFCC- inversion (by an
increase of about 26% up to 53% in STOI and 16% up to 78% in NISQA score) and a
rise of about 10% in intelligibility and about 4% in naturalness in comparison
with conventional rule-based vocoder WORLD that used in the CycleGAN-VC family.
However, WORLD needs additional data like F0. Finally, using perceptual loss in
discriminators based on STOI could improve the quality more. WebMUSHRA-based
subjective tests also show the quality of the proposed approach.
- Abstract(参考訳): 本稿では,MFCCを入力として採用し,生音声波形を生成する敵対学習に基づく新しい音声合成器として,MFCCGANを導入する。
GANモデル機能に適合し、ルールベースのMFCCベースの音声合成器WORLDよりも知性の高い音声を生成する。
提案手法は,stoi (popular intrusive objective speech intelligibility measure) とnisqa (quality) を用いて評価した。
実験結果から,本システムはLibrosa MFCCのインバージョン(STOIの約26%から53%,NISQAスコアの16%から78%)と,CycleGAN-VCファミリーで使用されている従来のルールベースボコーダWORLDと比較して,約10%のインテリジェンス,4%の自然性向上を実現していることがわかった。
しかし、WORLDにはF0のような追加データが必要である。
最後に、STOIに基づく識別器の知覚的損失を用いることにより、品質が向上した。
WebMUSHRAベースの主観的テストも提案手法の質を示している。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Syllable based DNN-HMM Cantonese Speech to Text System [3.976127530758402]
本稿では,音節ベース音響モデルを用いたカントーン音声テキスト(STT)システムを構築する。
OnCに基づく音節音響モデリングは、単語誤り率(WER)が9.66%、リアルタイム係数(RTF)が1.38812で最高の性能を達成する。
論文 参考訳(メタデータ) (2024-02-13T20:54:24Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Accurate Detection of Paroxysmal Atrial Fibrillation with Certified-GAN
and Neural Architecture Search [1.1744028458220426]
発作性心房細動(PxAF)検出のための新しい機械学習フレームワークを提案する。
このフレームワークにはGAN(Generative Adversarial Network)とNAS(Neural Architecture Search)が含まれている。
実験の結果,提案手法の精度は99%と高い値を示した。
論文 参考訳(メタデータ) (2023-01-17T14:04:17Z) - CCATMos: Convolutional Context-aware Transformer Network for
Non-intrusive Speech Quality Assessment [12.497279501767606]
本研究では,人間の評価スコア(MOS)を予測するために,CCAT(Convolutional Context-Aware Transformer)ネットワークと呼ばれる新しいエンド・ツー・エンドのモデル構造を提案する。
我々は、複数の言語と歪みタイプにまたがる3つのMOSアノテーション付きデータセット上でモデルを評価し、その結果をConferenceSpeech 2022 Challengeに提出する。
論文 参考訳(メタデータ) (2022-11-04T16:46:11Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。