Fugu-MT 論文翻訳(概要): AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit Alignment

論文の概要: AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit Alignment

arxiv url: http://arxiv.org/abs/2003.01950v1
Date: Wed, 4 Mar 2020 08:44:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-26 13:37:05.502772
Title: AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit Alignment
Title（参考訳）: AlignTTS:明示的アライメントのない効率的なフィードフォワードテキスト音声合成システム
Authors: Zhen Zeng, Jianzong Wang, Ning Cheng, Tian Xia, Jing Xiao
Abstract要約: AlignTTSは、文字列からメルスペクトルを生成するフィードフォワード変換器に基づいており、各文字の持続時間は、期間予測器によって決定される。提案モデルでは,Transformer TTSを平均オプションスコア(MOS)0.03で上回り,リアルタイムよりも50倍以上高速な高効率を実現する。
参考スコア（独自算出の注目度）: 38.85714892799518
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Targeting at both high efficiency and performance, we propose AlignTTS to predict the mel-spectrum in parallel. AlignTTS is based on a Feed-Forward Transformer which generates mel-spectrum from a sequence of characters, and the duration of each character is determined by a duration predictor.Instead of adopting the attention mechanism in Transformer TTS to align text to mel-spectrum, the alignment loss is presented to consider all possible alignments in training by use of dynamic programming. Experiments on the LJSpeech dataset show that our model achieves not only state-of-the-art performance which outperforms Transformer TTS by 0.03 in mean option score (MOS), but also a high efficiency which is more than 50 times faster than real-time.
Abstract（参考訳）: 高い効率と性能の両面を目標とし, メルスペクトルを並列に予測するAlignTTSを提案する。 AlignTTSは,文字列からメルスペクトルを生成するフィードフォワード変換器をベースとし,各文字の持続時間を時間予測器で決定する。テキストをメルスペクトルにアライメントするためにTransformer TTSのアテンション機構を採用する代わりに,動的プログラミングを用いてトレーニング中のすべてのアライメントを考慮し,アライメントロスを示す。 LJSpeechデータセットを用いた実験では,Transformer TTSを平均オプションスコア(MOS)0.03で上回る最先端性能だけでなく,リアルタイムよりも50倍以上高速な高効率を実現している。

関連論文リスト

Adaptive Two Sided Laplace Transforms: A Learnable, Interpretable, and Scalable Replacement for Self-Attention [0.0]
本稿では,従来の自己注意をトランスフォーマーベースLLMに置き換える,革新的で学習可能な2面短時間ラプラス変換(STLT)機構を提案する。我々のSTLTは各Laplaceノードに対してトレーニング可能なパラメータを導入し、崩壊率のエンドツーエンド学習を可能にした。さらに、効率の良いFFTベースの関係行列計算と適応ノード割り当て機構を組み込んで、アクティブなLaplaceノードの数を動的に調整する。
論文参考訳（メタデータ） (2025-06-01T00:32:24Z)
Faster and Better LLMs via Latency-Aware Test-Time Scaling [52.10888685395448]
テスト時間スケーリング(TTS)は、推論時の言語モデル(LLM)の性能向上に有効であることが証明されている。既存の研究は、レイテンシに敏感な観点から、TSの効率性を見落としている。計算最適TSは、レイテンシが重要となるシナリオにおいて、必ずしも最低レイテンシをもたらすとは限らないことを実証する。
論文参考訳（メタデータ） (2025-05-26T07:51:30Z)
Test-Time Low Rank Adaptation via Confidence Maximization for Zero-Shot Generalization of Vision-Language Models [4.655740975414312]
本稿では,大規模視覚言語モデル(VLM)のゼロショット一般化のための高速チューニングの代替として,テスト時間低ランク適応(TTL)を提案する。 TTLは、予測信頼度を最大化することにより、変圧器の注意重みを更新するテスト時間効率適応手法を提供する。
論文参考訳（メタデータ） (2024-07-22T17:59:19Z)
DiTTo-TTS: Efficient and Scalable Zero-Shot Text-to-Speech with Diffusion Transformer [9.032701216955497]
市販の事前学習テキストと音声エンコーダを利用した効率よくスケーラブルな拡散変換器(DiT)を提案する。提案手法は, 音声表現の総長の予測により, テキスト・音声アライメントの課題に対処する。トレーニングデータセットとモデルサイズはそれぞれ82K時間と790Mパラメータにスケールします。
論文参考訳（メタデータ） (2024-06-17T11:25:57Z)
TexIm FAST: Text-to-Image Representation for Semantic Similarity Evaluation using Transformers [2.7651063843287718]
TexIm FASTは、トランスフォーマー(TexIm FAST)を用いた意味評価のための自己教師付き変分自動エンコーダ(VAE)による固定長表現を生成する新しい手法である。画像表現は、言語的な複雑さを維持しながら、暗黙の推論を可能にし、クロスモーダルな応用において強力である。 TexIm FASTの有効性は、MSRPC、CNN/Daily Mail、XSumデータセット上でのセマンティックテキスト類似性(STS)のタスクに対して広く分析されている。
論文参考訳（メタデータ） (2024-06-06T18:28:50Z)
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。 DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文参考訳（メタデータ） (2024-03-18T14:05:52Z)
Optimization-Free Test-Time Adaptation for Cross-Person Activity Recognition [30.350005654271868]
Test-Time Adaptationは、テストストリームを使用して、リアルタイムの推論で予測を調整することを目的としている。計算コストが高いため、リソース制約のあるエッジデバイス上での動作が困難になる。センサベースHARのための最適化自由テスト時間適応フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-28T02:20:33Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
Iterative pseudo-forced alignment by acoustic CTC loss for self-supervised ASR domain adaptation [80.12316877964558]
特定のドメインからの高品質なデータラベリングはコストと人的時間を要する。本稿では,反復的擬力アライメントアルゴリズムに基づく自己教師付きドメイン適応手法を提案する。
論文参考訳（メタデータ） (2022-10-27T07:23:08Z)
AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。 AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文参考訳（メタデータ） (2021-12-14T18:56:07Z)
Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文参考訳（メタデータ） (2021-04-21T03:05:12Z)
Accurate Word Alignment Induction from Neural Machine Translation [33.21196289328584]
本稿では2つの単語アライメント誘導手法 Shift-Att と Shift-AET を提案する。主なアイデアは、to-be-alignedターゲットトークンがデコーダ入力であるときに、ステップでアライメントを誘導することである。 3つの公開データセットの実験では、両方のメソッドが対応する神経ベースラインよりも優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2020-04-30T14:47:05Z)
Controllable Time-Delay Transformer for Real-Time Punctuation Prediction and Disfluency Detection [10.265607222257263]
本稿では,リアルタイムに句読影予測および拡散検出タスクを共同で完了する制御可能な時間遅延変換器(CT-Transformer)モデルを提案する。提案手法は,従来のFスコアモデルよりも優れ,競合する推論速度を実現する。
論文参考訳（メタデータ） (2020-03-03T03:17:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。