Fugu-MT 論文翻訳(概要): Style Description based Text-to-Speech with Conditional Prosodic Layer Normalization based Diffusion GAN

論文の概要: Style Description based Text-to-Speech with Conditional Prosodic Layer Normalization based Diffusion GAN

arxiv url: http://arxiv.org/abs/2310.18169v1
Date: Fri, 27 Oct 2023 14:28:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-30 13:33:20.621082
Title: Style Description based Text-to-Speech with Conditional Prosodic Layer Normalization based Diffusion GAN
Title（参考訳）: 条件付き韻律層正規化に基づくスタイル記述に基づくテキスト音声合成
Authors: Neeraj Kumar and Ankur Narang and Brejesh Lall
Abstract要約: 本稿では,4段階以内の音声サンプルを生成するための入力として,スタイル記述とコンテンツテキストに基づく高忠実度音声を生成するための拡散GANに基づくアプローチ(韻律Diff-TTS)を提案する。提案手法の有効性を多話者LibriTTSおよびPromptSpeechデータセットに示す。
参考スコア（独自算出の注目度）: 17.876323494898536
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we present a Diffusion GAN based approach (Prosodic Diff-TTS) to generate the corresponding high-fidelity speech based on the style description and content text as an input to generate speech samples within only 4 denoising steps. It leverages the novel conditional prosodic layer normalization to incorporate the style embeddings into the multi head attention based phoneme encoder and mel spectrogram decoder based generator architecture to generate the speech. The style embedding is generated by fine tuning the pretrained BERT model on auxiliary tasks such as pitch, speaking speed, emotion,gender classifications. We demonstrate the efficacy of our proposed architecture on multi-speaker LibriTTS and PromptSpeech datasets, using multiple quantitative metrics that measure generated accuracy and MOS.
Abstract（参考訳）: 本稿では,4段階以内の音声サンプルを生成する入力として,スタイル記述とコンテンツテキストに基づく高忠実度音声を生成するための拡散GANに基づくアプローチ(韻律Diff-TTS)を提案する。これは、新しい条件付き韻律層正規化を利用して、マルチヘッドアテンションベースの音素エンコーダとメルスペクトログラムデコーダベースのジェネレータアーキテクチャにスタイル埋め込みを組み込んで音声を生成する。スタイル埋め込みは、ピッチ、スピーキングスピード、感情、性別分類などの補助タスクに事前訓練されたbertモデルを微調整することで生成される。本研究では,多話者リブレットとプロンプトスペッチデータセットに対する提案アーキテクチャの有効性を,生成精度とmosを測定する複数の定量的指標を用いて実証する。

関連論文リスト

LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization [8.365515332927444]
近年の音声トークン化手法は,低レベル音響から意味情報を分離し,言語モデルとの整合性を向上することを目的としている。新規なセマンティック蒸留を導入する音声トークン化手法であるLM-SPTを提案する。 LM-SPTは,ベースラインに比べて高い再現性が得られることを示す。
論文参考訳（メタデータ） (2025-06-20T04:15:14Z)
Transcript-Prompted Whisper with Dictionary-Enhanced Decoding for Japanese Speech Annotation [4.314729314139958]
音声と韻律のラベルを与えられた音声と音声のペアにアノテートする方法を提案する。音韻ラベリングにおける誤りの訂正に辞書事前知識を用いた復号方式を用いる。提案手法を用いてアノテートしたラベルで訓練したTTSモデルにより合成された音声の自然性は,手動のアノテーションで訓練したモデルに匹敵することを示す。
論文参考訳（メタデータ） (2025-06-09T11:10:24Z)
SEAL: Speech Embedding Alignment Learning for Speech Large Language Model with Retrieval-Augmented Generation [10.828717295018123]
本稿では,中間テキスト表現の必要性を解消する統合埋め込みフレームワークを提案する。本モデルでは,従来の2段階法に比べて高い精度でパイプライン遅延を50%削減する。
論文参考訳（メタデータ） (2025-01-26T15:04:02Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文参考訳（メタデータ） (2024-08-11T12:24:23Z)
StyleSpeech: Self-supervised Style Enhancing with VQ-VAE-based Pre-training for Expressive Audiobook Speech Synthesis [63.019962126807116]
音声ブックの合成音声の表現的品質は、一般化されたモデルアーキテクチャとアンバランスなスタイル分布によって制限される。本稿では,VQ-VAEに基づく音声合成のための事前学習による自己教師付きスタイル向上手法を提案する。
論文参考訳（メタデータ） (2023-12-19T14:13:26Z)
Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文参考訳（メタデータ） (2023-06-17T14:16:24Z)
Zero-shot text-to-speech synthesis conditioned using self-supervised speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文参考訳（メタデータ） (2023-04-24T10:15:58Z)
DiffVoice: Text-to-Speech with Latent Diffusion [18.150627638754923]
本稿では,遅延拡散に基づく新しい音声合成モデルDiffVoiceを提案する。 LJSpeech と LibriTTS データセットの主観評価は,本手法が自然界で最高の公開システムに勝っていることを示す。
論文参考訳（メタデータ） (2023-04-23T21:05:33Z)
Controllable speech synthesis by learning discrete phoneme-level prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文参考訳（メタデータ） (2022-11-29T15:43:36Z)
Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文参考訳（メタデータ） (2022-03-18T06:40:39Z)
Speaker Embedding-aware Neural Diarization for Flexible Number of Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文参考訳（メタデータ） (2021-11-28T12:51:04Z)
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文参考訳（メタデータ） (2020-09-06T13:01:06Z)
End-to-End Whisper to Natural Speech Conversion using Modified Transformer Network [0.8399688944263843]
シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
論文参考訳（メタデータ） (2020-04-20T14:47:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。