論文の概要: Rhythm-controllable Attention with High Robustness for Long Sentence
Speech Synthesis
- arxiv url: http://arxiv.org/abs/2306.02593v1
- Date: Mon, 5 Jun 2023 04:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 16:49:32.075819
- Title: Rhythm-controllable Attention with High Robustness for Long Sentence
Speech Synthesis
- Title(参考訳): 長文音声合成のためのロバスト度の高いリズム制御可能な注意
- Authors: Dengfeng Ke, Yayue Deng, Yukang Jia, Jinlong Xue, Qi Luo, Ya Li,
Jianqing Sun, Jiaen Liang, Binghuai Lin
- Abstract要約: 本稿では,Tricotron2をベースとしたリズム制御型注意(RC-Attention)を提案する。
RC-Attention の単語誤り率は 0.6% であり、ベースラインシステムでは 11.8% である。
- 参考スコア(独自算出の注目度): 17.49795340038422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Regressive Text-to-Speech (TTS) system utilizes attention mechanism to
generate alignment between text and acoustic feature sequence. Alignment
determines synthesis robustness (e.g, the occurence of skipping, repeating, and
collapse) and rhythm via duration control. However, current attention
algorithms used in speech synthesis cannot control rhythm using external
duration information to generate natural speech while ensuring robustness. In
this study, we propose Rhythm-controllable Attention (RC-Attention) based on
Tracotron2, which improves robustness and naturalness simultaneously. Proposed
attention adopts a trainable scalar learned from four kinds of information to
achieve rhythm control, which makes rhythm control more robust and natural,
even when synthesized sentences are extremely longer than training corpus. We
use word errors counting and AB preference test to measure robustness of
proposed method and naturalness of synthesized speech, respectively. Results
shows that RC-Attention has the lowest word error rate of nearly 0.6%, compared
with 11.8% for baseline system. Moreover, nearly 60% subjects prefer to the
speech synthesized with RC-Attention to that with Forward Attention, because
the former has more natural rhythm.
- Abstract(参考訳): Reressive Text-to-Speech (TTS) システムは注意機構を利用してテキストと音響特徴系列のアライメントを生成する。
アライメントは合成のロバスト性(例えば、スキップ、繰り返し、崩壊)とリズムを持続時間制御によって決定する。
しかし、音声合成における現在の注意アルゴリズムは、外部持続時間情報を用いてリズムを制御できず、ロバスト性を確保しつつ自然音声を生成する。
本研究では,トラコトロン2に基づくリズム制御可能な注意(rc-attention)を提案し,ロバスト性と自然性を同時に向上させる。
4種類の情報から学習した訓練可能なスカラーを採用してリズム制御を実現し、合成文がトレーニングコーパスよりも非常に長い場合でもリズム制御をより堅牢で自然なものにする。
提案手法のロバスト性および合成音声の自然性を測定するために,単語誤り計数とab選好テストを用いた。
その結果,rc-attentionの単語誤り率は0.6%近く,ベースラインシステムでは11.8%であった。
さらに,60%近い被験者は,前者の方が自然なリズムが強いため,rc-attentionで合成した音声を好む。
関連論文リスト
- Robust Zero-Shot Text-to-Speech Synthesis with Reverse Inference Optimization [34.51491788470738]
本稿では,自己回帰モデルに基づく音声合成システム(TTS)の堅牢性を高めるために,リバース推論最適化(RIO)を提案する。
RIOは、RTSシステム自体によって生成された音声サンプルからRLHFで使用される例を選択するために、逆推論を使用する。
RIOは、トレーニングと推論条件の相違を低減し、ゼロショットTS性能の安定性を著しく向上する。
論文 参考訳(メタデータ) (2024-07-02T13:04:04Z) - Synchronous Faithfulness Monitoring for Trustworthy Retrieval-Augmented Generation [96.78845113346809]
Retrieval-augmented Language Model (RALMs) は、知識集約型タスクにおいて、高い性能と幅広い適用性を示している。
本稿では,非偽文の検出に微細な復号力学を利用する軽量モニタであるSynCheckを提案する。
また、長文検索拡張生成のためのビームサーチによって導かれる忠実度指向の復号アルゴリズムであるFODを導入する。
論文 参考訳(メタデータ) (2024-06-19T16:42:57Z) - Prosody-controllable spontaneous TTS with neural HMMs [11.472325158964646]
小型で不規則なデータセットから素早く学習できるTSアーキテクチャを提案する。
我々は既存のニューラルHMMベースのTSシステムに発話レベルの韻律制御を加える。
本研究では,2種類の難聴音声を合成するシステムの性能を評価する。
論文 参考訳(メタデータ) (2022-11-24T11:06:11Z) - Explicit Intensity Control for Accented Text-to-speech [65.35831577398174]
TTSの過程におけるアクセントの強度の制御は、非常に興味深い研究方向である。
近年の作業は、話者とアクセント情報をアンタングルし、そのアクセント強度を制御するために損失重量を調整するために、話者対アダルロスを設計している。
本稿では,アクセント付きTSのための直感的かつ明示的なアクセント強度制御方式を提案する。
論文 参考訳(メタデータ) (2022-10-27T12:23:41Z) - Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with
Hierarchical Neural Embeddings [27.352570417976153]
本稿では、リズムとセマンティクスの両方で説得力のある結果が得られる新しい音声合成法を提案する。
本システムでは,発声とジェスチャーの時間的コヒーレンスを確保するために,ロバストなリズムベースセグメンテーションパイプラインを備えている。
ジェスチャーのセマンティクスにおいて,言語理論に基づく低レベルと高レベルの両方のニューラル埋め込みを効果的に解消する機構を考案する。
論文 参考訳(メタデータ) (2022-10-04T08:19:06Z) - Controllable Accented Text-to-Speech Synthesis [76.80549143755242]
我々は、推論中にアクセントとその強度を制御できるニューラルネットワークTSアーキテクチャを提案する。
これは、明示的な強度制御を伴うアクセント付きTS合成の最初の研究である。
論文 参考訳(メタデータ) (2022-09-22T06:13:07Z) - Continuous Speech for Improved Learning Pathological Voice Disorders [12.867900671251395]
本研究では,単一母音の代わりに連続マンダリン音声を用いて4つの共通音声障害を分類する手法を提案する。
提案手法では, 音響信号をメル周波数ケプストラム係数に変換し, 双方向長周期メモリネットワーク(BiLSTM)を採用して, 逐次的特徴をモデル化する。
論文 参考訳(メタデータ) (2022-02-22T09:58:31Z) - Synthesizing Dysarthric Speech Using Multi-talker TTS for Dysarthric
Speech Recognition [4.637732011720613]
Dysarthria は運動性発声障害であり、しばしば発声能力の低下を特徴とする。
頑健な変形性障害に対処するためには,十分な訓練音声が必要である。
テキスト音声合成の最近の進歩は、データ拡張に合成を利用する可能性を示している。
論文 参考訳(メタデータ) (2022-01-27T15:22:09Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z) - Incremental Text to Speech for Neural Sequence-to-Sequence Models using
Reinforcement Learning [60.20205278845412]
テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。
このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。
エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T11:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。