論文の概要: Fast DCTTS: Efficient Deep Convolutional Text-to-Speech
- arxiv url: http://arxiv.org/abs/2104.00624v1
- Date: Thu, 1 Apr 2021 17:08:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 19:46:16.821353
- Title: Fast DCTTS: Efficient Deep Convolutional Text-to-Speech
- Title(参考訳): Fast DCTTS: 効率的な深層畳み込みテキスト音声合成
- Authors: Minsu Kang, Jihyun Lee, Simin Kim and Injung Kim
- Abstract要約: 単一CPUスレッド上でリアルタイムに音声を合成するエンドツーエンド音声合成装置Fast DCTTSを提案する。
提案モデルは,複数のネットワーク削減と忠実度向上技術を適用した,慎重に調整された軽量ネットワークで構成されている。
- 参考スコア(独自算出の注目度): 8.276202368107006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an end-to-end speech synthesizer, Fast DCTTS, that synthesizes
speech in real time on a single CPU thread. The proposed model is composed of a
carefully-tuned lightweight network designed by applying multiple network
reduction and fidelity improvement techniques. In addition, we propose a novel
group highway activation that can compromise between computational efficiency
and the regularization effect of the gating mechanism. As well, we introduce a
new metric called Elastic mel-cepstral distortion (EMCD) to measure the
fidelity of the output mel-spectrogram. In experiments, we analyze the effect
of the acceleration techniques on speed and speech quality. Compared with the
baseline model, the proposed model exhibits improved MOS from 2.62 to 2.74 with
only 1.76% computation and 2.75% parameters. The speed on a single CPU thread
was improved by 7.45 times, which is fast enough to produce mel-spectrogram in
real time without GPU.
- Abstract(参考訳): 本稿では,1つのCPUスレッド上で音声をリアルタイムに合成するエンドツーエンド音声合成器Fast DCTTSを提案する。
提案モデルは,複数のネットワーク削減と忠実度向上技術を適用した,慎重に調整された軽量ネットワークで構成されている。
さらに, 計算効率とゲーティング機構の正規化効果を両立させることのできる, 新たなグループ・ハイウェイの活性化手法を提案する。
また、出力メル-スペクトログラムの忠実度を測定するために、Elastic mel-cepstral distortion (EMCD)と呼ばれる新しい測定基準を導入する。
実験では,加速技術が速度および音声品質に与える影響を解析した。
ベースラインモデルと比較すると,MOSは2.62から2.74に改善され,計算量は1.76%,パラメータは2.75%であった。
シングルCPUスレッドの速度は7.45倍改善され、GPUなしでリアルタイムでメルスペクトルを生成することができる。
関連論文リスト
- LiteG2P: A fast, light and high accuracy model for grapheme-to-phoneme
conversion [18.83348872103488]
Grapheme-to-phoneme (G2P) は文字を対応する発音に変換する役割を担っている。
既存のメソッドはパフォーマンスが遅いか悪いかのいずれかで、アプリケーションのシナリオに制限がある。
本稿では,高速で軽量で理論的に並列なLiteG2Pを提案する。
論文 参考訳(メタデータ) (2023-03-02T09:16:21Z) - ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to
Speech [37.29193613404699]
DDPMは高忠実度サンプルを生成する能力が強いため、TTS合成において出現している。
従来の研究では、推論ステップの数を最小化しながら、サンプル品質のコストを犠牲にすることで、推論速度の高速化が検討されてきた。
本稿では,既存のTSモデルの出力スペクトルを改良する軽量拡散モデルResGradを提案する。
論文 参考訳(メタデータ) (2022-12-30T02:31:35Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - Dynamic Latency for CTC-Based Streaming Automatic Speech Recognition
With Emformer [0.4588028371034407]
効率的な拡張メモリ変換器ブロックと動的遅延学習法を用いたフレームレベルモデルを用いて音声認識のストリーミングを行う。
平均レイテンシは640msであり,テストクリーンでは6.4%,他では3.0%,チャンクワイドトランスでは3.0%の相対的なWER削減を実現している。
論文 参考訳(メタデータ) (2022-03-29T14:31:06Z) - Diff-TTS: A Denoising Diffusion Model for Text-to-Speech [14.231478930274058]
自然で効率的な音声合成を実現する新しい非自己回帰型TTSモデルであるDiff-TTSを提案する。
Diff-TTSは、拡散時間ステップを通じてノイズ信号をメル・スペクトログラムに変換するデノイジング拡散フレームワークを利用しています。
Diff-TTSが1つのNVIDIA 2080Ti GPUでリアルタイムよりも28倍高速に生成されることを検証する。
論文 参考訳(メタデータ) (2021-04-03T13:53:19Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。