論文の概要: AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit
Alignment
- arxiv url: http://arxiv.org/abs/2003.01950v1
- Date: Wed, 4 Mar 2020 08:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 13:37:05.502772
- Title: AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit
Alignment
- Title(参考訳): AlignTTS:明示的アライメントのない効率的なフィードフォワードテキスト音声合成システム
- Authors: Zhen Zeng, Jianzong Wang, Ning Cheng, Tian Xia, Jing Xiao
- Abstract要約: AlignTTSは、文字列からメルスペクトルを生成するフィードフォワード変換器に基づいており、各文字の持続時間は、期間予測器によって決定される。
提案モデルでは,Transformer TTSを平均オプションスコア(MOS)0.03で上回り,リアルタイムよりも50倍以上高速な高効率を実現する。
- 参考スコア(独自算出の注目度): 38.85714892799518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Targeting at both high efficiency and performance, we propose AlignTTS to
predict the mel-spectrum in parallel. AlignTTS is based on a Feed-Forward
Transformer which generates mel-spectrum from a sequence of characters, and the
duration of each character is determined by a duration predictor.Instead of
adopting the attention mechanism in Transformer TTS to align text to
mel-spectrum, the alignment loss is presented to consider all possible
alignments in training by use of dynamic programming. Experiments on the
LJSpeech dataset show that our model achieves not only state-of-the-art
performance which outperforms Transformer TTS by 0.03 in mean option score
(MOS), but also a high efficiency which is more than 50 times faster than
real-time.
- Abstract(参考訳): 高い効率と性能の両面を目標とし, メルスペクトルを並列に予測するAlignTTSを提案する。
AlignTTSは,文字列からメルスペクトルを生成するフィードフォワード変換器をベースとし,各文字の持続時間を時間予測器で決定する。テキストをメルスペクトルにアライメントするためにTransformer TTSのアテンション機構を採用する代わりに,動的プログラミングを用いてトレーニング中のすべてのアライメントを考慮し,アライメントロスを示す。
LJSpeechデータセットを用いた実験では,Transformer TTSを平均オプションスコア(MOS)0.03で上回る最先端性能だけでなく,リアルタイムよりも50倍以上高速な高効率を実現している。
関連論文リスト
- A Strong Baseline for Temporal Video-Text Alignment [67.0514869855102]
最適なタイムスタンプを推測するために、すべてのテキストをクエリとしてTransformerベースのアーキテクチャを採用する、シンプルで強力なモデルを構築します。
i)音声認識による誤りの低減のためのASRシステムのアップグレード効果,(ii)CLIPからS3D,さらに最近のInternVideoまで,様々な視覚的テクスチャバックボーンの効果について,徹底的な実験を行った。
提案手法は,ナレーションアライメントと手続き的ステップグラウンド処理の両方において優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Optimization-Free Test-Time Adaptation for Cross-Person Activity
Recognition [30.350005654271868]
Test-Time Adaptationは、テストストリームを使用して、リアルタイムの推論で予測を調整することを目的としている。
計算コストが高いため、リソース制約のあるエッジデバイス上での動作が困難になる。
センサベースHARのための最適化自由テスト時間適応フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-28T02:20:33Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Iterative pseudo-forced alignment by acoustic CTC loss for
self-supervised ASR domain adaptation [80.12316877964558]
特定のドメインからの高品質なデータラベリングはコストと人的時間を要する。
本稿では,反復的擬力アライメントアルゴリズムに基づく自己教師付きドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T07:23:08Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - CASS-NAT: CTC Alignment-based Single Step Non-autoregressive Transformer
for Speech Recognition [29.55887842348706]
音声認識のためのCTCアライメントに基づく単段非自己回帰デコーダ(CASS-NAT)を提案する。
推論中, 誤差に基づくアライメント手法をCTC空間に適用し, WERを低減し, 出力も保持する。
論文 参考訳(メタデータ) (2020-10-28T03:14:05Z) - JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech
without Explicit Alignment [2.7402733069181]
JDI-T(Jointly Training Duration Informed Transformer)を提案する。
JDI-Tはフィードフォワード変換器で、明示的なアライメントを伴わない持続予測器を共同で訓練している。
共同訓練中, 自動回帰変換器から音素長を抽出した。
論文 参考訳(メタデータ) (2020-05-15T22:06:13Z) - Accurate Word Alignment Induction from Neural Machine Translation [33.21196289328584]
本稿では2つの単語アライメント誘導手法 Shift-Att と Shift-AET を提案する。
主なアイデアは、to-be-alignedターゲットトークンがデコーダ入力であるときに、ステップでアライメントを誘導することである。
3つの公開データセットの実験では、両方のメソッドが対応する神経ベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-04-30T14:47:05Z) - Controllable Time-Delay Transformer for Real-Time Punctuation Prediction
and Disfluency Detection [10.265607222257263]
本稿では,リアルタイムに句読影予測および拡散検出タスクを共同で完了する制御可能な時間遅延変換器(CT-Transformer)モデルを提案する。
提案手法は,従来のFスコアモデルよりも優れ,競合する推論速度を実現する。
論文 参考訳(メタデータ) (2020-03-03T03:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。