論文の概要: FluentEditor2: Text-based Speech Editing by Modeling Multi-Scale Acoustic and Prosody Consistency
- arxiv url: http://arxiv.org/abs/2410.03719v2
- Date: Sun, 08 Dec 2024 11:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:48:09.315113
- Title: FluentEditor2: Text-based Speech Editing by Modeling Multi-Scale Acoustic and Prosody Consistency
- Title(参考訳): FluentEditor2:マルチスケール音響・韻律一貫性のモデル化によるテキストベースの音声編集
- Authors: Rui Liu, Jiatian Xi, Ziyue Jiang, Haizhou Li,
- Abstract要約: テキストベースの音声編集(TSE)により、ユーザーは元の録音を変更することなく、対応するテキストを直接修正して音声を編集できる。
現在のTSE技術は、学習中に生成された音声と編集領域における参照の相違を最小限に抑えることに焦点を当てていることが多い。
従来のtextitFluentEditor モデルである textittextbfFluentEditor2 をベースとした新しい流速音声編集手法を提案する。
- 参考スコア(独自算出の注目度): 40.95700389032375
- License:
- Abstract: Text-based speech editing (TSE) allows users to edit speech by modifying the corresponding text directly without altering the original recording. Current TSE techniques often focus on minimizing discrepancies between generated speech and reference within edited regions during training to achieve fluent TSE performance. However, the generated speech in the edited region should maintain acoustic and prosodic consistency with the unedited region and the original speech at both the local and global levels. To maintain speech fluency, we propose a new fluency speech editing scheme based on our previous \textit{FluentEditor} model, termed \textit{\textbf{FluentEditor2}}, by modeling the multi-scale acoustic and prosody consistency training criterion in TSE training. Specifically, for local acoustic consistency, we propose \textit{hierarchical local acoustic smoothness constraint} to align the acoustic properties of speech frames, phonemes, and words at the boundary between the generated speech in the edited region and the speech in the unedited region. For global prosody consistency, we propose \textit{contrastive global prosody consistency constraint} to keep the speech in the edited region consistent with the prosody of the original utterance. Extensive experiments on the VCTK and LibriTTS datasets show that \textit{FluentEditor2} surpasses existing neural networks-based TSE methods, including Editspeech, Campnet, A$^3$T, FluentSpeech, and our Fluenteditor, in both subjective and objective. Ablation studies further highlight the contributions of each module to the overall effectiveness of the system. Speech demos are available at: \url{https://github.com/Ai-S2-Lab/FluentEditor2}.
- Abstract(参考訳): テキストベースの音声編集(TSE)により、ユーザーは元の録音を変更することなく、対応するテキストを直接修正して音声を編集できる。
現在のTSE技術は、学習中に生成された音声と編集領域における参照の相違を最小限に抑えることに焦点を当てていることが多い。
しかし, 編集領域で生成した音声は, 未編集領域との音響的・韻律的整合性を維持し, 局所レベルとグローバルレベルの両方で原音声を維持する必要がある。
本稿では,TSE訓練におけるマルチスケール音響・韻律整合性訓練基準をモデル化し,従来の「textit{FluentEditor}」モデルに基づく新しい流速音声編集手法を提案する。
具体的には, 局所的な音質の整合性について, 音声フレーム, 音素, 単語の音響特性を, 編集領域の音声と未編集領域の音声の境界で整列させるために, 局所的な音質制約を提案する。
大域的韻律整合性のために,原発話の韻律と整合性を保つために,大域的韻律整合性制約(textit{contrastive global Prosody consistency constraintst})を提案する。
VCTKとLibriTTSデータセットの大規模な実験によると、 \textit{FluentEditor2} は Editspeech、Campnet、A$^3$T、FluentSpeech、Fluenteditor といった既存のニューラルネットワークベースのTSEメソッドを主観的および客観的に超越している。
アブレーション研究は、システム全体の有効性に対する各モジュールの貢献をさらに強調する。
音声デモは以下の通り。 \url{https://github.com/Ai-S2-Lab/FluentEditor2}。
関連論文リスト
- Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。
この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。
共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文 参考訳(メタデータ) (2024-10-09T22:02:30Z) - DiffEditor: Enhancing Speech Editing with Semantic Enrichment and Acoustic Consistency [20.3466261946094]
我々は,OODテキストシナリオの性能向上を目的とした新しい音声編集モデルであるDiffEditorを紹介する。
事前学習した言語モデルから抽出した単語埋め込みを統合することで,音素埋め込みの意味情報を豊かにする。
本稿では、編集境界におけるスムーズな遷移を促進し、編集された音声の全体的な流速を高めるための1次損失関数を提案する。
論文 参考訳(メタデータ) (2024-09-19T07:11:54Z) - Voice Attribute Editing with Text Prompt [48.48628304530097]
本稿では,テキストプロンプトを用いた音声属性編集という新しい課題を紹介する。
目標は、テキストプロンプトに記述された動作に応じて、音声属性を相対的に修正することである。
この課題を解決するために,エンドツーエンド生成モデルであるVoxEditorを提案する。
論文 参考訳(メタデータ) (2024-04-13T00:07:40Z) - FluentEditor: Text-based Speech Editing by Considering Acoustic and
Prosody Consistency [44.7425844190807]
テキストベースの音声編集(TSE)技術は、ユーザが音声自体の代わりに入力テキストの書き起こしを変更することで出力オーディオを編集できるように設計されている。
本稿では,TSE訓練における流速を考慮した訓練基準を考慮し,流速音声編集モデルであるtextitFluentEditorを提案する。
VCTKの主観的および客観的な実験結果から,本論文のテキストFluentEditorは,自然性や流布性の観点から,すべての高度なベースラインを上回ります。
論文 参考訳(メタデータ) (2023-09-21T01:58:01Z) - Text-only Domain Adaptation using Unified Speech-Text Representation in
Transducer [12.417314740402587]
本稿では,コンバータ変換器(USTR-CT)における統一音声テキスト表現を学習し,テキストのみのコーパスを用いて高速なドメイン適応を実現する手法を提案する。
SPGISpeechにLibriSpeechを適応させる実験により,提案手法は単語誤り率(WER)を目標領域で相対44%削減することを示した。
論文 参考訳(メタデータ) (2023-06-07T00:33:02Z) - CampNet: Context-Aware Mask Prediction for End-to-End Text-Based Speech
Editing [67.96138567288197]
本稿では,コンテキスト認識型マスク予測ネットワーク(CampNet)と呼ばれる,エンドツーエンドのテキストベースの音声編集手法を提案する。
モデルは、音声の一部をランダムにマスキングしてテキストベースの音声編集プロセスをシミュレートし、音声コンテキストを感知してマスキング領域を予測する。
編集された領域における不自然な韻律を解き、テキスト中の不明瞭な単語に対応する音声を合成することができる。
論文 参考訳(メタデータ) (2022-02-21T02:05:14Z) - EdiTTS: Score-based Editing for Controllable Text-to-Speech [9.34612743192798]
EdiTTSは音声合成のためのスコアベース生成モデルに基づく市販音声編集手法である。
我々は、拡散モデルから所望の振る舞いを誘導するために、ガウス事前空間において粗大で故意に摂動を適用する。
リスニングテストは、EdiTTSがユーザの要求を満たす自然音を確実に生成できることを示した。
論文 参考訳(メタデータ) (2021-10-06T08:51:10Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Context-Aware Prosody Correction for Text-Based Speech Editing [28.459695630420832]
現在のシステムの主な欠点は、編集された地域の周りの韻律のミスマッチのために、編集された録音がしばしば不自然に聞こえることです。
音声のより自然な音声編集のための新しい文脈認識手法を提案する。
論文 参考訳(メタデータ) (2021-02-16T18:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。