論文の概要: A Non-autoregressive Model for Joint STT and TTS
- arxiv url: http://arxiv.org/abs/2501.09104v2
- Date: Mon, 20 Jan 2025 18:35:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:20:27.415388
- Title: A Non-autoregressive Model for Joint STT and TTS
- Title(参考訳): STTとTSの非自己回帰モデル
- Authors: Vishal Sunder, Brian Kingsbury, George Saon, Samuel Thomas, Slava Shechtman, Hagai Aronowitz, Eric Fosler-Lussier, Luis Lastras,
- Abstract要約: 音声とテキストのモダリティを個別に、あるいは一緒に入力できる新しいフレームワークを開発する。
STT と TTS の両方のタスクを効果的に実行し、全てのタスクにおいて STT 固有のベースラインを上回り、幅広い評価指標で TTS 固有のベースラインと競合的に実行可能であることを示す。
- 参考スコア(独自算出の注目度): 39.60669957092876
- License:
- Abstract: In this paper, we take a step towards jointly modeling automatic speech recognition (STT) and speech synthesis (TTS) in a fully non-autoregressive way. We develop a novel multimodal framework capable of handling the speech and text modalities as input either individually or together. The proposed model can also be trained with unpaired speech or text data owing to its multimodal nature. We further propose an iterative refinement strategy to improve the STT and TTS performance of our model such that the partial hypothesis at the output can be fed back to the input of our model, thus iteratively improving both STT and TTS predictions. We show that our joint model can effectively perform both STT and TTS tasks, outperforming the STT-specific baseline in all tasks and performing competitively with the TTS-specific baseline across a wide range of evaluation metrics.
- Abstract(参考訳): 本稿では,自動音声認識(STT)と音声合成(TTS)を非自己回帰的に共同でモデル化する。
音声とテキストのモダリティを個別にあるいは相互に入力できる新しいマルチモーダルフレームワークを開発する。
提案モデルは,そのマルチモーダルな性質から,不適切な音声やテキストデータを用いて訓練することもできる。
さらに、出力部分仮説をモデル入力にフィードバックし、STTおよびTS予測の両方を反復的に改善するように、モデルのSTTおよびTS性能を改善するための反復的改善戦略を提案する。
STT と TTS の両方のタスクを効果的に実行し、全てのタスクにおいて STT 固有のベースラインを上回り、幅広い評価指標で TTS 固有のベースラインと競合的に実行可能であることを示す。
関連論文リスト
- DEX-TTS: Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability [7.005068872406135]
DEX-TTS (Diffusion-based Expressive TTS) は参照型音声合成のための音響モデルである。
DEX-TTSは、参照音声から抽出されたスタイルを扱うエンコーダとアダプタを含んでいる。
さらに、TTSの拡散ネットワークを改善するために、重複パッチと畳み込み周波数パッチの埋め込み方式を導入する。
論文 参考訳(メタデータ) (2024-06-27T12:39:55Z) - Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - CM-TTS: Enhancing Real Time Text-to-Speech Synthesis Efficiency through Weighted Samplers and Consistency Models [30.68516200579894]
一貫性モデル(CM)に基づく新しいアーキテクチャであるCM-TTSを紹介する。
CM-TTSは、対戦訓練や事前訓練されたモデル依存なしに、より少ないステップで高品質な音声合成を実現する。
包括的評価により検証した実時間メル-クログラム生成一貫性モデルを提案する。
論文 参考訳(メタデータ) (2024-03-31T05:38:08Z) - Revisiting Realistic Test-Time Training: Sequential Inference and
Adaptation by Anchored Clustering Regularized Self-Training [37.75537703971045]
テスト時アンカークラスタリング(TTAC)アプローチを開発し,より強力なテスト時特徴学習を実現する。
自己学習(ST)はラベルのないデータから学ぶ上で大きな成功を収めた。
TTAC++は、5つのTTデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-03-20T04:30:18Z) - A Multi-Task BERT Model for Schema-Guided Dialogue State Tracking [78.2700757742992]
タスク指向対話システムは対話状態追跡器(DST)を用いて会話を完了させる。
最近の最先端のDST実装は、モデルの堅牢性を改善するために様々なサービスのスキーマに依存している。
本稿では,意図予測,要求スロット予測,スロットフィリングの3つのDSTタスクを協調的に解決する単一マルチタスクBERTモデルを提案する。
論文 参考訳(メタデータ) (2022-07-02T13:27:59Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - ESPnet2-TTS: Extending the Edge of TTS Research [62.92178873052468]
ESPnet2-TTSは、E2E-TTS(E2E-TTS)ツールキットである。
新機能としては、オンザフライフレキシブルプリプロセッシング、ニューラルボコーダとのジョイントトレーニング、フルバンドE2Eテキスト・トゥ・ウェーブフォームモデリングのような拡張を備えた最先端のTSモデルなどがある。
論文 参考訳(メタデータ) (2021-10-15T03:27:45Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。