論文の概要: Advances in Speech Vocoding for Text-to-Speech with Continuous
Parameters
- arxiv url: http://arxiv.org/abs/2106.10481v1
- Date: Sat, 19 Jun 2021 12:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 09:07:57.271269
- Title: Advances in Speech Vocoding for Text-to-Speech with Continuous
Parameters
- Title(参考訳): 連続パラメータを用いた音声音声音声符号化の進歩
- Authors: Mohammed Salah Al-Radhi, Tam\'as G\'abor Csap\'o, and G\'eza N\'emeth
- Abstract要約: 本稿では,連続的なボコーダにおいて,全ての特徴が連続的であり,フレキシブルな音声合成システムを示す新しい手法を提案する。
位相歪みに基づく新しい連続雑音マスキングを提案し,残音の知覚的影響を排除した。
双方向長短期記憶 (LSTM) とゲートリカレント単位 (GRU) について検討し, 連続パラメータのモデル化に応用した。
- 参考スコア(独自算出の注目度): 2.6572330982240935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vocoders received renewed attention as main components in statistical
parametric text-to-speech (TTS) synthesis and speech transformation systems.
Even though there are vocoding techniques give almost accepted synthesized
speech, their high computational complexity and irregular structures are still
considered challenging concerns, which yield a variety of voice quality
degradation. Therefore, this paper presents new techniques in a continuous
vocoder, that is all features are continuous and presents a flexible speech
synthesis system. First, a new continuous noise masking based on the phase
distortion is proposed to eliminate the perceptual impact of the residual noise
and letting an accurate reconstruction of noise characteristics. Second, we
addressed the need of neural sequence to sequence modeling approach for the
task of TTS based on recurrent networks. Bidirectional long short-term memory
(LSTM) and gated recurrent unit (GRU) are studied and applied to model
continuous parameters for more natural-sounding like a human. The evaluation
results proved that the proposed model achieves the state-of-the-art
performance of the speech synthesis compared with the other traditional
methods.
- Abstract(参考訳): ボコーダは統計パラメトリックテキストから音声への変換システム(tts)の主要なコンポーネントとして再び注目を集めた。
ほぼ受け入れられた合成音声のボコーディング技術はあるが、その高い計算複雑性と不規則な構造はいまだに困難な問題と見なされており、様々な音声品質の劣化をもたらす。
そこで本稿では,全ての特徴が連続的であり,柔軟な音声合成システムを提供する連続ボコーダにおける新しい手法を提案する。
まず, 残音の知覚的影響をなくし, ノイズ特性の正確な再構成を可能にするため, 位相歪みに基づく新しい連続雑音マスキングを提案する。
第2に、リカレントネットワークに基づくTSタスクのシーケンスモデリングにおけるニューラルネットワークの必要性について検討した。
双方向長短期記憶 (lstm) とゲートリカレント単位 (gru) について検討し, 人間のように自然に聞こえる連続パラメータのモデル化に応用した。
評価の結果,提案モデルが従来の手法と比較して,音声合成の最先端性能を実現することがわかった。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic
Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。
提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。
ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文 参考訳(メタデータ) (2024-01-03T02:03:36Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Enhancing audio quality for expressive Neural Text-to-Speech [8.199224915764672]
本稿では,高表現率音声の信号品質を向上させるために,追加データを用いることなく活用できる一連の手法を提案する。
その結果,これらの手法を組み合わせることで,表現力のある有名人声のMUSHRAスコアにおいて,ベースラインシステムと録音との知覚自然さのギャップを39%削減できることが判明した。
論文 参考訳(メタデータ) (2021-08-13T14:32:39Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。