Fugu-MT 論文翻訳(概要): Beyond Oversmoothing: Evaluating DDPM and MSE for Scalable Speech Synthesis in ASR

論文の概要: Beyond Oversmoothing: Evaluating DDPM and MSE for Scalable Speech Synthesis in ASR

arxiv url: http://arxiv.org/abs/2410.12279v1
Date: Wed, 16 Oct 2024 06:35:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.163724
Title: Beyond Oversmoothing: Evaluating DDPM and MSE for Scalable Speech Synthesis in ASR
Title（参考訳）: 過平化を超えて:ASRにおけるスケーラブル音声合成のためのDDPMとMSEの評価
Authors: Christoph Minixhofer, Ondrej Klejch, Peter Bell,
Abstract要約: ASRモデルのトレーニングに使用する場合, DPM(Denoising Diffusion Probabilistic Models)とTSのMean Squared Error(MSE)ベースのモデルを比較した。与えられたモデルサイズに対して、DDPMはMSEモデルよりも多くのデータとより多様な話者の集合をうまく利用することができる。実話と合成音声のWERの比率(1.46)は最も高いが,大きなギャップが残っていることも確認できた。
参考スコア（独自算出の注目度）: 13.307889110301502
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Synthetically generated speech has rapidly approached human levels of naturalness. However, the paradox remains that ASR systems, when trained on TTS output that is judged as natural by humans, continue to perform badly on real speech. In this work, we explore whether this phenomenon is due to the oversmoothing behaviour of models commonly used in TTS, with a particular focus on the behaviour of TTS-for-ASR as the amount of TTS training data is scaled up. We systematically compare Denoising Diffusion Probabilistic Models (DDPM) to Mean Squared Error (MSE) based models for TTS, when used for ASR model training. We test the scalability of the two approaches, varying both the number hours, and the number of different speakers. We find that for a given model size, DDPM can make better use of more data, and a more diverse set of speakers, than MSE models. We achieve the best reported ratio between real and synthetic speech WER to date (1.46), but also find that a large gap remains.
Abstract（参考訳）: 合成音声は人間の自然度に急速に近づきつつある。しかし、このパラドックスは、人間によって自然と判断されるTS出力で訓練されたASRシステムが、実際の発話でひどいパフォーマンスを保ち続けている。本研究では、この現象が、TSトレーニングデータのスケールアップに伴って、TS-for-ASRの振る舞いに特に焦点をあて、TSで一般的に使用されるモデルの過度な動作に起因するかどうかを考察する。 ASRモデルのトレーニングに使用する場合,Denoising Diffusion Probabilistic Models (DDPM) とMean Squared Error (MSE) を用いたTSモデルとの比較を行った。我々は2つのアプローチのスケーラビリティをテストする。与えられたモデルサイズに対して、DDPMはMSEモデルよりも多くのデータとより多様な話者の集合をうまく利用することができる。実話と合成音声のWERの比率(1.46)は最も高いが,大きなギャップが残っていることも確認できた。

関連論文リスト

KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [57.08591486199925]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文参考訳（メタデータ） (2025-05-26T08:38:02Z)
DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis [12.310318928818546]
DMOSpeechは, 蒸留拡散に基づくTSモデルであり, 教師モデルと比較して高速な推論と優れた性能を実現する。我々の総合的な実験は、人間の広範囲な評価によって検証され、自然性、知性、話者の類似性を大幅に向上させながら、推測時間を桁違いに減らした。本研究は,音声合成と人間の聴覚嗜好を協調する新たな枠組みを,直接的メートル法最適化により確立する。
論文参考訳（メタデータ） (2024-10-14T21:17:58Z)
SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。 SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文参考訳（メタデータ） (2024-08-25T17:07:39Z)
DiTTo-TTS: Diffusion Transformers for Scalable Text-to-Speech without Domain-Specific Factors [8.419383213705789]
本稿では,Diffusion Transformer (DiT) ベースのTSモデルであるDiTTo-TTSを導入し,LDMベースのTSがドメイン固有の要因を伴わずに最先端の性能を達成できるかどうかを検討する。最小修正のDiTは、U-Netよりも優れており、音声長予測器による可変長モデリング、音声潜在表現のセマンティックアライメントなどの条件は、さらなる拡張の鍵となる。
論文参考訳（メタデータ） (2024-06-17T11:25:57Z)
Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文参考訳（メタデータ） (2024-06-11T14:17:12Z)
EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech [4.91849983180793]
本稿では,深層畳み込みニューラルネットワークに基づくテキスト音声合成システムを提案する。私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。実験の結果,合成音声の品質と自然性を確保しつつ,学習時間とパラメータを低減できることがわかった。
論文参考訳（メタデータ） (2024-03-13T01:27:57Z)
Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。 Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文参考訳（メタデータ） (2023-06-06T08:54:49Z)
Unsupervised Data Selection for TTS: Using Arabic Broadcast News as a Case Study [44.07589545984369]
本稿では、自動データ選択と事前学習/微調整戦略を含む、TS構築のための完全に教師なしの手法を提案する。我々は,データの選択を慎重に行うことで,TSシステムの効率が向上することを示す。評価の結果,CERは3.9%,CERは1.3%であった。
論文参考訳（メタデータ） (2023-01-22T10:41:58Z)
EPIC TTS Models: Empirical Pruning Investigations Characterizing Text-To-Speech Models [26.462819114575172]
この研究は、音声合成における空間的パラダイムを比較する。音声合成における空間的パラダイムを比較する最初の作品である。
論文参考訳（メタデータ） (2022-09-22T09:47:25Z)
DDKtor: Automatic Diadochokinetic Speech Analysis [13.68342426889044]
本稿では,無表記・無転写音声から子音と母音を自動的に分離する2つのディープニューラルネットワークモデルを提案する。若い健康な個人のデータセットの結果から、LSTMモデルは現在の最先端システムよりも優れています。 LSTMモデルは、パーキンソン病データセットの未確認高齢者を対象に、訓練されたヒトアノテータに匹敵する結果を提示する。
論文参考訳（メタデータ） (2022-06-29T13:34:03Z)
Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文参考訳（メタデータ） (2021-12-10T20:47:58Z)
On the Interplay Between Sparsity, Naturalness, Intelligibility, and Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文参考訳（メタデータ） (2021-10-04T02:03:28Z)
Learning to Maximize Speech Quality Directly Using MOS Prediction for Neural Text-to-Speech [15.796199345773873]
本稿では,知覚的損失の監視の下でTSモデルを訓練することにより,音声品質を向上させる新しい手法を提案する。まず、平均世論スコア(MOS)予測モデルを事前訓練し、次に合成音声のMOSを最大化するためにTSモデルを訓練する。提案手法は,TSモデルアーキテクチャや音声品質劣化の原因に関わらず,独立して適用することができる。
論文参考訳（メタデータ） (2020-11-02T18:13:48Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。