Fugu-MT 論文翻訳(概要): Efficiently Trained Mongolian Text-to-Speech System Based On FullConv

論文の概要: Efficiently Trained Mongolian Text-to-Speech System Based On FullConv

arxiv url: http://arxiv.org/abs/2211.01948v1
Date: Mon, 24 Oct 2022 14:18:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-06 14:39:16.329733
Title: Efficiently Trained Mongolian Text-to-Speech System Based On FullConv
Title（参考訳）: FullConvに基づく効率的なモンゴル語テキスト音声合成システム
Authors: ZiQi Liang
Abstract要約: 本稿では,RNN成分(繰り返し単位)を用いない深層畳み込みニューラルネットワークに基づく音声合成システムを提案する。同時に、時間ワープ、周波数マスク、時間マスクといった一連のデータ拡張手法により、モデルの汎用性とロバスト性を向上する。最後に, CNN コンポーネントのみを用いた TTS モデルは,Tacotron などの古典的 TTS モデルと比較してトレーニング時間を短縮できることを示した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recurrent Neural Networks (RNNs) have become the standard modeling technique for sequence data, and are used in a number of novel text-to-speech models. However, training a TTS model including RNN components has certain requirements for GPU performance and takes a long time. In contrast, studies have shown that CNN-based sequence synthesis technology can greatly reduce training time in text-to-speech models while ensuring a certain performance due to its high parallelism. We propose a new text-to-speech system based on deep convolutional neural networks that does not employ any RNN components (recurrent units). At the same time, we improve the generality and robustness of our model through a series of data augmentation methods such as Time Warping, Frequency Mask, and Time Mask. The final experimental results show that the TTS model using only the CNN component can reduce the training time compared to the classic TTS models such as Tacotron while ensuring the quality of the synthesized speech.
Abstract（参考訳）: リカレントニューラルネットワーク(RNN)はシーケンスデータの標準的なモデリング技術となり、多くの新しい音声合成モデルで使われている。しかし、RNNコンポーネントを含むTSモデルのトレーニングには、GPUのパフォーマンスに一定の要件があり、長い時間がかかる。対照的に、CNNに基づくシーケンス合成技術は、高い並列性により一定の性能を確保しつつ、テキスト音声モデルのトレーニング時間を大幅に短縮することを示した。本稿では,rnnコンポーネント(リカレントユニット)を一切使用しない深層畳み込みニューラルネットワークに基づく新しい音声合成システムを提案する。同時に, 時間ゆがみ, 周波数マスク, タイムマスクなどのデータ拡張手法により, モデルの汎用性とロバスト性を向上させる。最後に,CNN成分のみを用いたTSモデルは,合成音声の品質を確保しつつ,タコトロンのような古典的TSモデルと比較してトレーニング時間を短縮できることを示した。

関連論文リスト

Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。 PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文参考訳（メタデータ） (2025-04-14T16:03:21Z)
SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。 SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文参考訳（メタデータ） (2024-08-25T17:07:39Z)
Language Modeling Using Tensor Trains [11.19279979601076]
テンソルトレイン言語モデル(TTLM)と呼ばれる,最も単純なテンソルネットワーク(テンソルトレイン)に基づく新しいテンソルネットワーク言語モデルを提案する。 TTLMは、単語のテンソル積によって構築された指数空間内の文を表すが、低次元の方法で文の確率を計算する。
論文参考訳（メタデータ） (2024-05-07T18:09:47Z)
EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech [4.91849983180793]
本稿では,深層畳み込みニューラルネットワークに基づくテキスト音声合成システムを提案する。私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。実験の結果,合成音声の品質と自然性を確保しつつ,学習時間とパラメータを低減できることがわかった。
論文参考訳（メタデータ） (2024-03-13T01:27:57Z)
On the Relevance of Phoneme Duration Variability of Synthesized Training Data for Automatic Speech Recognition [0.552480439325792]
合成データの時間構造とASRトレーニングとの関係に着目した。本研究では, 合成データ品質の劣化が, 非自己回帰性TSの持続時間モデルにどの程度影響されているかを示す。簡単なアルゴリズムを用いて,TTSシステムの音素持続時間分布を実時間に近づける。
論文参考訳（メタデータ） (2023-10-12T08:45:21Z)
OverFlow: Putting flows on top of neural transducers for better TTS [9.346907121576258]
ニューラルHMMは、最近テキストから音声へのシーケンスモデリングのために提案されたニューラルトランスデューサの一種である。本稿では,ニューラルHMM TTSと正規化流を組み合わせた音声音響の非ガウス分布を記述する。
論文参考訳（メタデータ） (2022-11-13T12:53:05Z)
Model Blending for Text Classification [0.15229257192293197]
テキスト分類などの自然言語処理におけるアートLSTMモデルの複雑性をCNNベースモデルに抽出することにより,テスト中の推論時間(あるいはレイテンシ)を短縮する。
論文参考訳（メタデータ） (2022-08-05T05:07:45Z)
Deep Time Delay Neural Network for Speech Enhancement with Full Data Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文参考訳（メタデータ） (2020-11-11T06:32:37Z)
Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文参考訳（メタデータ） (2020-08-07T11:02:07Z)
Exploring Deep Hybrid Tensor-to-Vector Network Architectures for Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。 CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文参考訳（メタデータ） (2020-07-25T22:21:05Z)
Tensor train decompositions on recurrent networks [60.334946204107446]
マトリックス製品状態(MPS)テンソルトレインは、ストレージの削減と推論時の計算時間の観点から、MPOよりも魅力的な特徴を持つ。理論解析により,MPSテンソル列車はLSTMネットワーク圧縮の最前線に置かれるべきであることを示す。
論文参考訳（メタデータ） (2020-06-09T18:25:39Z)
Investigation of learning abilities on linguistic features in sequence-to-sequence text-to-speech synthesis [48.151894340550385]
ニューラルシークエンス・ツー・シークエンス・テキスト・トゥ・音声合成(TTS)は、テキストや音素のような単純な言語的特徴から直接高品質な音声を生成することができる。ニューラルシークエンス・ツー・シークエンス TTS が日本語と英語でどのように機能するかを考察する。
論文参考訳（メタデータ） (2020-05-20T23:26:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。