論文の概要: Syllable based DNN-HMM Cantonese Speech to Text System
- arxiv url: http://arxiv.org/abs/2402.08788v1
- Date: Tue, 13 Feb 2024 20:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 17:44:58.547269
- Title: Syllable based DNN-HMM Cantonese Speech to Text System
- Title(参考訳): 可聴型DNN-HMMカントン音声からテキストシステム
- Authors: Timothy Wong and Claire Li and Sam Lam and Billy Chiu and Qin Lu and
Minglei Li and Dan Xiong and Roy Shing Yu and Vincent T.Y. Ng
- Abstract要約: 本稿では,音節ベース音響モデルを用いたカントーン音声テキスト(STT)システムを構築する。
OnCに基づく音節音響モデリングは、単語誤り率(WER)が9.66%、リアルタイム係数(RTF)が1.38812で最高の性能を達成する。
- 参考スコア(独自算出の注目度): 3.976127530758402
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper reports our work on building up a Cantonese Speech-to-Text (STT)
system with a syllable based acoustic model. This is a part of an effort in
building a STT system to aid dyslexic students who have cognitive deficiency in
writing skills but have no problem expressing their ideas through speech. For
Cantonese speech recognition, the basic unit of acoustic models can either be
the conventional Initial-Final (IF) syllables, or the Onset-Nucleus-Coda (ONC)
syllables where finals are further split into nucleus and coda to reflect the
intra-syllable variations in Cantonese. By using the Kaldi toolkit, our system
is trained using the stochastic gradient descent optimization model with the
aid of GPUs for the hybrid Deep Neural Network and Hidden Markov Model
(DNN-HMM) with and without I-vector based speaker adaptive training technique.
The input features of the same Gaussian Mixture Model with speaker adaptive
training (GMM-SAT) to DNN are used in all cases. Experiments show that the
ONC-based syllable acoustic modeling with I-vector based DNN-HMM achieves the
best performance with the word error rate (WER) of 9.66% and the real time
factor (RTF) of 1.38812.
- Abstract(参考訳): 本稿では,音節ベース音響モデルを用いたカントン音声テキスト(STT)システムの構築について報告する。
これは、文章スキルに認知障害があるが、言語を通じてアイデアを表現できない障害のある学生を支援するsttシステムを構築するための取り組みの一環である。
カントン語音声認識では、音響モデルの基本的な単位は、従来の初期終音節(if)または、終音がさらに核とコーダに分割されてカントン語における音節内変化を反映したオンセット・ヌクレウス・コーダ音節(onc)である。
Kaldi ツールキットを用いて,我々のシステムは,I-vector を用いた話者適応学習手法を使わずに,ハイブリッド型Deep Neural Network と Hidden Markov Model (DNN-HMM) のためのGPUを用いて,確率勾配降下最適化モデルを用いて訓練を行う。
話者適応訓練(GMM-SAT)とDNNを併用した同じガウス混合モデルの入力特性を,すべて使用した。
i-vectorベースのdnn-hmmを用いた音節音響モデルにおいて,単語誤り率 (wer) は9.66%,リアルタイム係数 (rtf) は1.38812。
関連論文リスト
- Quartered Spectral Envelope and 1D-CNN-based Classification of Normally Phonated and Whispered Speech [0.0]
フーリエ変換のスペクトル包絡には, 正常音声におけるピッチとピッチの高調波の存在と, ささやき音声が存在しないことが明らかである。
これらの特徴を捉えるために1次元畳み込みニューラルネットワーク(1D-CNN)を提案する。
このシステムは、wTIMITデータセットでトレーニングされテストされたときに99.31%、CHAINSデータセットで100%の精度が得られる。
論文 参考訳(メタデータ) (2024-08-25T07:17:11Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Pronunciation-aware unique character encoding for RNN Transducer-based
Mandarin speech recognition [38.60303603000269]
本稿では,E2E RNN-T ベースの Mandarin ASR システム構築に新しい発音認識文字符号化法を提案する。
提案する符号化法は発音ベース音節と文字索引(CI)の組み合わせである。
論文 参考訳(メタデータ) (2022-07-29T09:49:10Z) - Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - ECAPA-TDNN for Multi-speaker Text-to-speech Synthesis [13.676243543864347]
本稿では,高品質な音声を生成できるエンドツーエンド手法を提案する。
この方法は、最先端のTDNNベースのECAPA-TDNNに基づく話者エンコーダ、FastSpeech2ベースのシンセサイザー、HiFi-GANボコーダの3つの別々に訓練されたコンポーネントで構成されている。
論文 参考訳(メタデータ) (2022-03-20T07:04:26Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Audio-Visual Decision Fusion for WFST-based and seq2seq Models [3.2771898634434997]
雑音下では、音声認識システムは高い単語誤り率(WER)に悩まされる
提案手法は,推測時における音声と視覚のモダリティから情報を融合する新しい手法である。
提案手法は音響のみのWERよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-01-29T13:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。