論文の概要: AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit
Alignment
- arxiv url: http://arxiv.org/abs/2003.01950v1
- Date: Wed, 4 Mar 2020 08:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 13:37:05.502772
- Title: AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit
Alignment
- Title(参考訳): AlignTTS:明示的アライメントのない効率的なフィードフォワードテキスト音声合成システム
- Authors: Zhen Zeng, Jianzong Wang, Ning Cheng, Tian Xia, Jing Xiao
- Abstract要約: AlignTTSは、文字列からメルスペクトルを生成するフィードフォワード変換器に基づいており、各文字の持続時間は、期間予測器によって決定される。
提案モデルでは,Transformer TTSを平均オプションスコア(MOS)0.03で上回り,リアルタイムよりも50倍以上高速な高効率を実現する。
- 参考スコア(独自算出の注目度): 38.85714892799518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Targeting at both high efficiency and performance, we propose AlignTTS to
predict the mel-spectrum in parallel. AlignTTS is based on a Feed-Forward
Transformer which generates mel-spectrum from a sequence of characters, and the
duration of each character is determined by a duration predictor.Instead of
adopting the attention mechanism in Transformer TTS to align text to
mel-spectrum, the alignment loss is presented to consider all possible
alignments in training by use of dynamic programming. Experiments on the
LJSpeech dataset show that our model achieves not only state-of-the-art
performance which outperforms Transformer TTS by 0.03 in mean option score
(MOS), but also a high efficiency which is more than 50 times faster than
real-time.
- Abstract(参考訳): 高い効率と性能の両面を目標とし, メルスペクトルを並列に予測するAlignTTSを提案する。
AlignTTSは,文字列からメルスペクトルを生成するフィードフォワード変換器をベースとし,各文字の持続時間を時間予測器で決定する。テキストをメルスペクトルにアライメントするためにTransformer TTSのアテンション機構を採用する代わりに,動的プログラミングを用いてトレーニング中のすべてのアライメントを考慮し,アライメントロスを示す。
LJSpeechデータセットを用いた実験では,Transformer TTSを平均オプションスコア(MOS)0.03で上回る最先端性能だけでなく,リアルタイムよりも50倍以上高速な高効率を実現している。
関連論文リスト
- Test-Time Low Rank Adaptation via Confidence Maximization for Zero-Shot Generalization of Vision-Language Models [4.655740975414312]
本稿では,大規模視覚言語モデル(VLM)のゼロショット一般化のための高速チューニングの代替として,テスト時間低ランク適応(TTL)を提案する。
TTLは、予測信頼度を最大化することにより、変圧器の注意重みを更新するテスト時間効率適応手法を提供する。
論文 参考訳(メタデータ) (2024-07-22T17:59:19Z) - DiTTo-TTS: Efficient and Scalable Zero-Shot Text-to-Speech with Diffusion Transformer [9.032701216955497]
市販の事前学習テキストと音声エンコーダを利用した効率よくスケーラブルな拡散変換器(DiT)を提案する。
提案手法は, 音声表現の総長の予測により, テキスト・音声アライメントの課題に対処する。
トレーニングデータセットとモデルサイズはそれぞれ82K時間と790Mパラメータにスケールします。
論文 参考訳(メタデータ) (2024-06-17T11:25:57Z) - TexIm FAST: Text-to-Image Representation for Semantic Similarity Evaluation using Transformers [2.7651063843287718]
TexIm FASTは、トランスフォーマー(TexIm FAST)を用いた意味評価のための自己教師付き変分自動エンコーダ(VAE)による固定長表現を生成する新しい手法である。
画像表現は、言語的な複雑さを維持しながら、暗黙の推論を可能にし、クロスモーダルな応用において強力である。
TexIm FASTの有効性は、MSRPC、CNN/Daily Mail、XSumデータセット上でのセマンティックテキスト類似性(STS)のタスクに対して広く分析されている。
論文 参考訳(メタデータ) (2024-06-06T18:28:50Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Iterative pseudo-forced alignment by acoustic CTC loss for
self-supervised ASR domain adaptation [80.12316877964558]
特定のドメインからの高品質なデータラベリングはコストと人的時間を要する。
本稿では,反復的擬力アライメントアルゴリズムに基づく自己教師付きドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T07:23:08Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - Accurate Word Alignment Induction from Neural Machine Translation [33.21196289328584]
本稿では2つの単語アライメント誘導手法 Shift-Att と Shift-AET を提案する。
主なアイデアは、to-be-alignedターゲットトークンがデコーダ入力であるときに、ステップでアライメントを誘導することである。
3つの公開データセットの実験では、両方のメソッドが対応する神経ベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-04-30T14:47:05Z) - Controllable Time-Delay Transformer for Real-Time Punctuation Prediction
and Disfluency Detection [10.265607222257263]
本稿では,リアルタイムに句読影予測および拡散検出タスクを共同で完了する制御可能な時間遅延変換器(CT-Transformer)モデルを提案する。
提案手法は,従来のFスコアモデルよりも優れ,競合する推論速度を実現する。
論文 参考訳(メタデータ) (2020-03-03T03:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。