Fugu-MT 論文翻訳(概要): DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer

論文の概要: DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer

arxiv url: http://arxiv.org/abs/2305.19567v4
Date: Wed, 28 Jun 2023 11:42:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-29 17:44:03.126859
Title: DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer
Title（参考訳）: DC CoMix TTS: Mixerとのコラボレーションによる離散コード付きエンドツーエンド表現型TS
Authors: Yerin Choi, Myoung-Wan Koo
Abstract要約: 改良された韻律モデリングを実現するために,新しい入力表現とシンプルなアーキテクチャを提案する。 TTSにおける離散コードの使用の成功に触発されて,参照エンコーダの入力に離散コードを導入する。主観的評価と客観的評価の両面から,本手法の有効性を実証する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Despite the huge successes made in neutral TTS, content-leakage remains a challenge. In this paper, we propose a new input representation and simple architecture to achieve improved prosody modeling. Inspired by the recent success in the use of discrete code in TTS, we introduce discrete code to the input of the reference encoder. Specifically, we leverage the vector quantizer from the audio compression model to exploit the diverse acoustic information it has already been trained on. In addition, we apply the modified MLP-Mixer to the reference encoder, making the architecture lighter. As a result, we train the prosody transfer TTS in an end-to-end manner. We prove the effectiveness of our method through both subjective and objective evaluations. We demonstrate that the reference encoder learns better speaker-independent prosody when discrete code is utilized as input in the experiments. In addition, we obtain comparable results even when fewer parameters are inputted.
Abstract（参考訳）: TTSの中立性は大きな成功を収めたものの、コンテンツ収集は依然として課題だ。本稿では,プロソディモデリングの改善を実現するための新しい入力表現と単純なアーキテクチャを提案する。近年のttsにおける離散コードの使用の成功に触発されて,参照エンコーダの入力に離散コードを導入する。具体的には,音響圧縮モデルのベクトル量子化器を用いて,すでにトレーニング済みの多様な音響情報を活用する。さらに、修正MLP-Mixerを参照エンコーダに適用し、アーキテクチャをより軽量にする。その結果、プロソディ転送TSをエンドツーエンドで訓練する。本手法は主観的評価と客観的評価の両方を通して有効性を示す。実験において、離散符号を入力として利用する場合、参照エンコーダは話者非依存の韻律を学習できることを実証する。さらに,少ないパラメータを入力しても比較結果が得られる。

関連論文リスト

Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文参考訳（メタデータ） (2026-01-29T12:16:19Z)
Towards Generalized Source Tracing for Codec-Based Deepfake Speech [52.68106957822706]
本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
論文参考訳（メタデータ） (2025-06-08T21:36:10Z)
TTS-Transducer: End-to-End Speech Synthesis with Neural Transducer [6.1319363847980135]
TTS-Transducerは、音声モデルとニューラルトランスデューサの強みを活用する、テキストから音声への新たなアーキテクチャである。 TTS-Transducerは,現代のTSシステムに代わる,競争力があり堅牢な代替手段であることを示す。
論文参考訳（メタデータ） (2025-01-10T19:50:32Z)
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文参考訳（メタデータ） (2024-07-07T15:16:19Z)
VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文参考訳（メタデータ） (2024-06-12T04:09:44Z)
Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文参考訳（メタデータ） (2023-06-17T14:16:24Z)
High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文参考訳（メタデータ） (2022-10-24T17:52:02Z)
Deliberation of Streaming RNN-Transducer by Non-autoregressive Decoding [21.978994865937786]
この方法は、テキスト機能とオーディオ機能の両方に対応するトランスフォーマーデコーダを各ステップで共有する、いくつかの改善ステップを実行する。本研究では,ストリーミングRNN-Tモデルの仮説アライメントを条件に,第1パスRNN-Tよりも精度の高い認識結果が得られることを示す。
論文参考訳（メタデータ） (2021-12-01T01:34:28Z)
CoDERT: Distilling Encoder Representations with Co-learning for Transducer-based Speech Recognition [14.07385381963374]
トランスデューサのエンコーダ出力は自然に高いエントロピーを持ち、音響的に類似した単語-ピースの混同に関する豊富な情報を含んでいることを示す。本稿では,教師のトランスデューサのエンコーダのロジットを蒸留するための補助的損失を導入し,このエンコーダ蒸留が効果的に機能するトレーニング戦略を探る。
論文参考訳（メタデータ） (2021-06-14T20:03:57Z)
Neural Distributed Source Coding [59.630059301226474]
相関構造に依存せず,高次元までスケール可能な損失DSCのためのフレームワークを提案する。提案手法は,複数のデータセット上で評価し,複雑な相関関係と最先端PSNRを扱えることを示す。
論文参考訳（メタデータ） (2021-06-05T04:50:43Z)
Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文参考訳（メタデータ） (2021-05-29T09:26:02Z)
Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained Models into Speech Translation Encoders [30.160261563657947]
エンドツーエンドの音声翻訳では、事前トレーニングが有望です。 Stackedを提案します。音声翻訳のための音響・テキスト(SATE)法エンコーダはアコースティックシーケンスを通常どおりに処理することから始まり、その後はアコースティックシーケンスのように振る舞う。 MTエンコーダは入力シーケンスのグローバル表現である。
論文参考訳（メタデータ） (2021-05-12T16:09:53Z)
Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文参考訳（メタデータ） (2020-12-07T14:16:14Z)
Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文参考訳（メタデータ） (2020-11-26T06:28:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。