論文の概要: EPIC TTS Models: Empirical Pruning Investigations Characterizing
Text-To-Speech Models
- arxiv url: http://arxiv.org/abs/2209.10890v1
- Date: Thu, 22 Sep 2022 09:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 14:46:07.079181
- Title: EPIC TTS Models: Empirical Pruning Investigations Characterizing
Text-To-Speech Models
- Title(参考訳): EPIC TTSモデル:テキスト音声モデルの特徴付けに関する実証解析
- Authors: Perry Lam, Huayun Zhang, Nancy F. Chen, Berrak Sisman
- Abstract要約: この研究は、音声合成における空間的パラダイムを比較する。
音声合成における空間的パラダイムを比較する最初の作品である。
- 参考スコア(独自算出の注目度): 26.462819114575172
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural models are known to be over-parameterized, and recent work has shown
that sparse text-to-speech (TTS) models can outperform dense models. Although a
plethora of sparse methods has been proposed for other domains, such methods
have rarely been applied in TTS. In this work, we seek to answer the question:
what are the characteristics of selected sparse techniques on the performance
and model complexity? We compare a Tacotron2 baseline and the results of
applying five techniques. We then evaluate the performance via the factors of
naturalness, intelligibility and prosody, while reporting model size and
training time. Complementary to prior research, we find that pruning before or
during training can achieve similar performance to pruning after training and
can be trained much faster, while removing entire neurons degrades performance
much more than removing parameters. To our best knowledge, this is the first
work that compares sparsity paradigms in text-to-speech synthesis.
- Abstract(参考訳): ニューラルモデルは過パラメータ化されていることが知られており、近年の研究により、スパーステキスト音声(TTS)モデルは高密度モデルより優れていることが示されている。
他の領域ではスパース法が多数提案されているが、TSに適用されることは稀である。
この研究では、パフォーマンスとモデルの複雑さに関して、選択したスパーステクニックの特徴は何ですか?
tacotron2のベースラインと5つのテクニックを適用した結果を比較した。
次に,モデルサイズとトレーニング時間を報告しながら,自然性,知性,韻律の要因を通して性能を評価する。
先行研究の補完として,訓練前後のプルーニングは訓練後のプルーニングと同じような性能を達成でき,より高速なトレーニングが可能であり,同時に全ニューロンの除去はパラメータの除去よりもはるかに性能を低下させる。
われわれの知る限りでは、これは音声合成における空間的パラダイムを比較する最初の作品である。
関連論文リスト
- Reducing Computational Costs in Sentiment Analysis: Tensorized Recurrent
Networks vs. Recurrent Networks [0.12891210250935145]
特定のテキストに対する聴衆の反応を期待することは、政治、研究、商業産業など、社会のいくつかの側面に不可欠である。
感性分析(英: Sentiment Analysis、SA)は、語彙・統計・深層学習法を用いて、異なるサイズのテキストが肯定的、否定的、中立的な感情を示すかどうかを判断する有用な自然言語処理(NLP)技術である。
論文 参考訳(メタデータ) (2023-06-16T09:18:08Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。
本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。
本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文 参考訳(メタデータ) (2022-03-21T15:14:44Z) - Compressing Sentence Representation for Semantic Retrieval via
Homomorphic Projective Distillation [28.432799973328127]
圧縮文の埋め込みを学習するために,同相射影蒸留法(HPD)を提案する。
提案手法は,小さなトランスフォーマーエンコーダモデルを学習可能なプロジェクション層で拡張し,コンパクトな表現を生成する。
論文 参考訳(メタデータ) (2022-03-15T07:05:43Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。