論文の概要: A comparison of Vietnamese Statistical Parametric Speech Synthesis
Systems
- arxiv url: http://arxiv.org/abs/2005.12962v1
- Date: Tue, 26 May 2020 18:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 00:31:36.250387
- Title: A comparison of Vietnamese Statistical Parametric Speech Synthesis
Systems
- Title(参考訳): ベトナムの統計的パラメトリック音声合成システムの比較
- Authors: Huy Kinh Phan, Viet Lam Phung, Tuan Anh Dinh, Bao Quoc Nguyen
- Abstract要約: 近年,多くの対話型音声合成システムにおいて,統計パラメトリック音声合成システム(SPSS)が広く利用されている。
1)隠れマルコフモデル(HMM)、2)ディープニューラルネットワーク(DNN)、3)ジェネレーティブ敵ネットワーク(GAN)、4)エンドツーエンドアーキテクチャ(E2E)の4つの一般的なベトナムのSPSS技術を比較した。
E2Eシステムは最高の品質を達成できたが、リアルタイムのパフォーマンスを実現するにはGPUのパワーが必要であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, statistical parametric speech synthesis (SPSS) systems have
been widely utilized in many interactive speech-based systems (e.g.~Amazon's
Alexa, Bose's headphones). To select a suitable SPSS system, both speech
quality and performance efficiency (e.g.~decoding time) must be taken into
account. In the paper, we compared four popular Vietnamese SPSS techniques
using: 1) hidden Markov models (HMM), 2) deep neural networks (DNN), 3)
generative adversarial networks (GAN), and 4) end-to-end (E2E) architectures,
which consists of Tacontron~2 and WaveGlow vocoder in terms of speech quality
and performance efficiency. We showed that the E2E systems accomplished the
best quality, but required the power of GPU to achieve real-time performance.
We also showed that the HMM-based system had inferior speech quality, but it
was the most efficient system. Surprisingly, the E2E systems were more
efficient than the DNN and GAN in inference on GPU. Surprisingly, the GAN-based
system did not outperform the DNN in term of quality.
- Abstract(参考訳): 近年、統計パラメトリック音声合成(SPSS)システムは、多くの対話型音声ベースシステム(例えば、BoseのヘッドフォンであるAmazonのAlexa)で広く利用されている。
適切なSPSSシステムを選択するには、音声品質と性能効率(例えば復号時間)の両方を考慮する必要がある。
本稿では4つのベトナムのSPSS技術を比較した。
1)隠れマルコフモデル(HMM)
2)ディープニューラルネットワーク(DNN)
3)生成的敵ネットワーク(gan)、および
4) 音声品質と性能効率の観点からtacontron~2とwaveglow vocoderからなるエンドツーエンド(e2e)アーキテクチャ。
E2Eシステムは最高の品質を達成できたが、リアルタイムのパフォーマンスを実現するにはGPUのパワーが必要であった。
また,HMMに基づくシステムは低音質であったが,最も効率的なシステムであった。
驚いたことに、E2EシステムはGPU上の推論においてDNNやGANよりも効率的だった。
驚いたことに、GANベースのシステムは品質面でDNNを上回っなかった。
関連論文リスト
- Quartered Spectral Envelope and 1D-CNN-based Classification of Normally Phonated and Whispered Speech [0.0]
フーリエ変換のスペクトル包絡には, 正常音声におけるピッチとピッチの高調波の存在と, ささやき音声が存在しないことが明らかである。
これらの特徴を捉えるために1次元畳み込みニューラルネットワーク(1D-CNN)を提案する。
このシステムは、wTIMITデータセットでトレーニングされテストされたときに99.31%、CHAINSデータセットで100%の精度が得られる。
論文 参考訳(メタデータ) (2024-08-25T07:17:11Z) - Syllable based DNN-HMM Cantonese Speech to Text System [3.976127530758402]
本稿では,音節ベース音響モデルを用いたカントーン音声テキスト(STT)システムを構築する。
OnCに基づく音節音響モデリングは、単語誤り率(WER)が9.66%、リアルタイム係数(RTF)が1.38812で最高の性能を達成する。
論文 参考訳(メタデータ) (2024-02-13T20:54:24Z) - Leveraging Large Text Corpora for End-to-End Speech Summarization [58.673480990374635]
エンドツーエンド音声要約(End-to-end speech summarization, E2E SSum)は、音声から要約文を直接生成する技術である。
本稿では,E2E SSumトレーニングにおいて,大量の外部テキスト要約データを活用する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T05:19:49Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - L2 proficiency assessment using self-supervised speech representations [35.70742768910494]
本研究は,音声認識を必要とせず,自己教師型音声表現に基づく初期分析を大規模習熟度試験に拡張する。
自己教師型wav2vec 2.0システムの性能は、高性能の手作り評価システムとBERTベースのテキストシステムと比較される。
wav2vec 2.0ベースのシステムは応答の性質に敏感であることがわかったが、音声の書き起こしを必要とするシステムと同等の性能を持つように構成することができる。
論文 参考訳(メタデータ) (2022-11-16T11:47:20Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Two-pass Decoding and Cross-adaptation Based System Combination of
End-to-end Conformer and Hybrid TDNN ASR Systems [61.90743116707422]
本稿では,ハイブリッドTDNNとConformer E2E ASRシステムのためのマルチパス再構成とクロスアダプティブに基づくシステムの組み合わせについて検討する。
NIST Hub5'00、Rt03、Rt02の評価データに対して、マルチパス再構成を用いて得られた最良の組み合わせシステムにより、統計的に有意な単語誤り率(WER)が2.5%から3.9%の絶対値(22.5%から28.9%の相対値)に低下した。
論文 参考訳(メタデータ) (2022-06-23T10:17:13Z) - Investigations on Speech Recognition Systems for Low-Resource Dialectal
Arabic-English Code-Switching Speech [32.426525641734344]
コードスイッチによるエジプト・アラビア英語自動音声認識(ASR)に関する研究について述べる。
DNNベースのハイブリッドモデルとTransformerベースのエンドツーエンドモデルを用いて,ASRシステムを構築した。
両システムの出力を組み合わせることで,認識を向上できることを示す。
論文 参考訳(メタデータ) (2021-08-29T17:23:30Z) - Orthros: Non-autoregressive End-to-end Speech Translation with
Dual-decoder [64.55176104620848]
NARと自己回帰(AR)デコーダの両方を共有音声エンコーダで共同で訓練する新しいNAR E2E-STフレームワークOrthrosを提案する。
後者は、前者から生成される様々な長の候補間のより良い翻訳を選択するために使用され、これは、無視できるオーバーヘッドを持つ大きな長のビームの有効性を劇的に向上させる。
4つのベンチマーク実験により、競合翻訳品質を維持しつつ、推論速度を向上させる手法の有効性が示された。
論文 参考訳(メタデータ) (2020-10-25T06:35:30Z) - SpeedySpeech: Efficient Neural Speech Synthesis [5.558678875187018]
本稿では,高質なリアルタイムスペクトログラム合成が可能な学生-教師ネットワークを提案する。
高品質な音声を生成するには自己注意層は必要ないことを示す。
我々のモデルは1つのGPUで効率的にトレーニングでき、CPUでもリアルタイムで実行できる。
論文 参考訳(メタデータ) (2020-08-09T20:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。