論文の概要: Regotron: Regularizing the Tacotron2 architecture via monotonic
alignment loss
- arxiv url: http://arxiv.org/abs/2204.13437v1
- Date: Thu, 28 Apr 2022 12:08:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 20:47:05.737991
- Title: Regotron: Regularizing the Tacotron2 architecture via monotonic
alignment loss
- Title(参考訳): regotron:単調アライメント損失によるtacotron2アーキテクチャの規則化
- Authors: Efthymios Georgiou, Kosmas Kritsis, Georgios Paraskevopoulos,
Athanasios Katsamanis, Vassilis Katsouros, Alexandros Potamianos
- Abstract要約: 我々は、トレーニング問題を緩和し、同時に単調アライメントを生成することを目的とした、Tacotron2の正規化バージョンであるRegotronを紹介する。
本手法は,バニラTacotron2目的関数を付加項で拡張し,位置感応性注意機構における非単調アライメントをペナル化する。
- 参考スコア(独自算出の注目度): 71.30589161727967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent deep learning Text-to-Speech (TTS) systems have achieved impressive
performance by generating speech close to human parity. However, they suffer
from training stability issues as well as incorrect alignment of the
intermediate acoustic representation with the input text sequence. In this
work, we introduce Regotron, a regularized version of Tacotron2 which aims to
alleviate the training issues and at the same time produce monotonic
alignments. Our method augments the vanilla Tacotron2 objective function with
an additional term, which penalizes non-monotonic alignments in the
location-sensitive attention mechanism. By properly adjusting this
regularization term we show that the loss curves become smoother, and at the
same time Regotron consistently produces monotonic alignments in unseen
examples even at an early stage (13\% of the total number of epochs) of its
training process, whereas the fully converged Tacotron2 fails to do so.
Moreover, our proposed regularization method has no additional computational
overhead, while reducing common TTS mistakes and achieving slighlty improved
speech naturalness according to subjective mean opinion scores (MOS) collected
from 50 evaluators.
- Abstract(参考訳): 最近のdeep learning text-to-speech (tts)システムは、人間のパリティに近い音声を生成することで素晴らしいパフォーマンスを達成している。
しかし、トレーニング安定性の問題や、中間音響表現と入力テキストシーケンスの不正なアライメントに悩まされている。
本研究では,トレーニング問題を緩和し,同時にモノトニックアライメントを生成することを目的としたTacotron2の正規化バージョンであるRegotronを紹介する。
本手法は,バニラTacotron2目的関数を付加項で拡張し,位置感応性注意機構における非単調アライメントをペナル化する。
この正規化項を適切に調整することで、損失曲線はより滑らかになり、同時にRegotronはトレーニングプロセスの初期段階(エポックの総数の13倍%)においても、見知らぬ例において一律に単調なアライメントを発生させるが、完全に収束したTacotron2はそうしない。
さらに,提案手法では,ttsの誤りを低減し,50名の評価者から収集した主観的平均評価スコア (mos) により音声の自然性が向上した。
関連論文リスト
- Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech [9.982121768809854]
本稿では,ARトランスフォーマーを用いたエンコーダ・デコーダによる音声合成システムの改良について述べる。
提案手法では,アライメント機構を用いて,相対的な位置情報を用いたクロスアテンション操作を行う。
これらの改良を取り入れたVery Attentive Tacotronと呼ばれるシステムは、ベースラインT5ベースのTSシステムの自然性と表現性にマッチする。
論文 参考訳(メタデータ) (2024-10-29T16:17:01Z) - Efficient local linearity regularization to overcome catastrophic
overfitting [59.463867084204566]
単段階逆行訓練におけるカタストロフィックオーバーフィッティング(CO)は、逆行性テスト精度(最大0%まで)の急激な低下をもたらす。
我々は,従来のAT評価においてCOを効果的かつ効率的に緩和するために,ELLEと呼ばれる正規化項を導入する。
論文 参考訳(メタデータ) (2024-01-21T22:55:26Z) - PTP: Boosting Stability and Performance of Prompt Tuning with
Perturbation-Based Regularizer [94.23904400441957]
損失景観を平滑化できる摂動型正規化器を即時チューニングに導入する。
我々は乱数ノイズベースと逆数ベースを含む2種類の摂動型正規化器を設計する。
我々の新しいアルゴリズムは,SuperGLUEベンチマークとFewGLUEベンチマークでそれぞれ1.94%,2.34%の最先端のプロンプトチューニング手法を改善した。
論文 参考訳(メタデータ) (2023-05-03T20:30:51Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - One TTS Alignment To Rule Them All [26.355019468082247]
音声テキストアライメントは、ニューラルテキスト音声(TTS)モデルの重要な構成要素である。
本稿では,RAD-TTSにおけるアライメント機構を汎用的なアライメント学習フレームワークとして活用する。
このフレームワークは、フォワードサムアルゴリズム、ビタビアルゴリズム、単純で効率的な静的先行処理を組み合わせたものである。
論文 参考訳(メタデータ) (2021-08-23T23:45:48Z) - Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features [1.6286844497313562]
ストレス音節とピッチアクセントの2つの基本的な韻律的特徴から,Tacotron-2をコンディショニングする戦略を提案する。
本研究では,プリエンコーダとイントラデコーダの段階での協調条件が自然合成音声に結びつくことを示した。
論文 参考訳(メタデータ) (2021-04-08T20:50:15Z) - Non-Attentive Tacotron: Robust and Controllable Neural TTS Synthesis
Including Unsupervised Duration Modeling [29.24636059952458]
非吸収性タコトロンは自然度4.41の5スケールの平均スコアを達成し、タコトロン2をわずかに上回っている。
時間予測器は、推定時刻における音素ごとの発話全体及び音素ごとの時間長の制御を可能にする。
論文 参考訳(メタデータ) (2020-10-08T23:41:39Z) - Modeling Prosodic Phrasing with Multi-Task Learning in Tacotron-based
TTS [74.11899135025503]
本稿では,Tacotronに基づく音声合成フレームワークを拡張し,韻律句のブレークを明示的にモデル化する。
提案手法は中国語とモンゴル語の両方の音質を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:57:29Z) - Exact Hard Monotonic Attention for Character-Level Transduction [76.66797368985453]
非単調なソフトアテンションを用いたニューラルシークエンス・ツー・シーケンスモデルは、しばしば一般的な単調モデルよりも優れていることを示す。
我々は、厳密な単調性を強制し、トランスデューサの学習中に協調して潜時アライメントを学習するハードアテンションシーケンス・ツー・シーケンス・モデルを開発した。
論文 参考訳(メタデータ) (2019-05-15T17:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。