論文の概要: FluentEditor+: Text-based Speech Editing by Modeling Local Hierarchical Acoustic Smoothness and Global Prosody Consistency
- arxiv url: http://arxiv.org/abs/2410.03719v1
- Date: Sat, 28 Sep 2024 10:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 20:28:28.239437
- Title: FluentEditor+: Text-based Speech Editing by Modeling Local Hierarchical Acoustic Smoothness and Global Prosody Consistency
- Title(参考訳): FluentEditor+:局所的階層的音響平滑性とグローバル韻律一貫性をモデル化したテキストベースの音声編集
- Authors: Rui Liu, Jiatian Xi, Ziyue Jiang, Haizhou Li,
- Abstract要約: テキストベースの音声編集(TSE)では、ユーザーは対応するテキストを編集し、カット、コピー、ペーストなどの操作を実行することで音声を修正できる。
現在のTSE技術は、生成した音声と、編集されたセグメント内の参照ターゲットとの相違を最小化することに焦点を当てている。
音声の未修正部分と 編集部分のシームレスな統合は 難しいままです
本稿ではこれらの制限を克服するために設計された新しいアプローチであるFluentEditor$tiny +$を紹介する。
- 参考スコア(独自算出の注目度): 40.95700389032375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based speech editing (TSE) allows users to modify speech by editing the corresponding text and performing operations such as cutting, copying, and pasting to generate updated audio without altering the original recording directly. Text-based speech editing (TSE) allows users to modify speech by editing the corresponding text and performing operations such as cutting, copying, and pasting to generate updated audio without altering the original recording directly. While current TSE techniques focus on minimizing discrepancies between generated speech and reference targets within edited segments, they often neglect the importance of maintaining both local and global fluency in the context of the original discourse. Additionally, seamlessly integrating edited segments with unaltered portions of the audio remains challenging, typically requiring support from text-to-speech (TTS) systems. This paper introduces a novel approach, FluentEditor$\tiny +$, designed to overcome these limitations. FluentEditor$\tiny +$ employs advanced feature extraction techniques to capture both acoustic and prosodic characteristics, ensuring fluent transitions between edited and unedited regions. The model ensures segmental acoustic smoothness and global prosody consistency, allowing seamless splicing of speech while preserving the coherence and naturalness of the output. Extensive experiments on the VCTK and LibriTTS datasets show that FluentEditor$\tiny +$ surpasses existing TTS-based methods, including Editspeech, Campnet, $A^3T$ FluentSpeech, and Fluenteditor, in both fluency and prosody. Ablation studies further highlight the contributions of each module to the overall effectiveness of the system.
- Abstract(参考訳): テキストベースの音声編集(TSE)により、ユーザーは対応するテキストを編集し、カット、コピー、ペーストなどの操作を行い、元の録音を直接変更することなく、更新された音声を生成することができる。
テキストベースの音声編集(TSE)により、ユーザーは対応するテキストを編集し、カット、コピー、ペーストなどの操作を行い、元の録音を直接変更することなく、更新された音声を生成することができる。
現在のTSE技術は、生成した音声と、編集されたセグメント内の参照対象との差異を最小限に抑えることに重点を置いているが、元の言説の文脈において、局所的・グローバル的流布を維持することの重要性を無視することが多い。
さらに、音声の未修正部分とのシームレスな統合も困難であり、通常、TTS(text-to-speech)システムのサポートが必要である。
本稿ではこれらの制限を克服するために設計された新しいアプローチであるFluentEditor$\tiny +$を紹介する。
FluentEditor$\tiny +$は、高度な特徴抽出技術を使用して、音響特性と韻律特性の両方をキャプチャし、編集された領域と未編集領域の間の流動的な遷移を保証する。
このモデルにより、セグメント音響の滑らかさと大域的韻律整合性が保証され、出力のコヒーレンスと自然性を保ちながら、音声のシームレスなスプライシングが可能となる。
VCTKとLibriTTSデータセットの大規模な実験によると、FluentEditor$\tiny +$は、Editspeech、Campnet、$A^3T$ FluentSpeech、Fluenteditorといった既存のTSベースのメソッドを、流布と韻律の両方で上回っている。
アブレーション研究は、システム全体の有効性に対する各モジュールの貢献をさらに強調する。
関連論文リスト
- Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。
この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。
共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文 参考訳(メタデータ) (2024-10-09T22:02:30Z) - DiffEditor: Enhancing Speech Editing with Semantic Enrichment and Acoustic Consistency [20.3466261946094]
我々は,OODテキストシナリオの性能向上を目的とした新しい音声編集モデルであるDiffEditorを紹介する。
事前学習した言語モデルから抽出した単語埋め込みを統合することで,音素埋め込みの意味情報を豊かにする。
本稿では、編集境界におけるスムーズな遷移を促進し、編集された音声の全体的な流速を高めるための1次損失関数を提案する。
論文 参考訳(メタデータ) (2024-09-19T07:11:54Z) - Voice Attribute Editing with Text Prompt [48.48628304530097]
本稿では,テキストプロンプトを用いた音声属性編集という新しい課題を紹介する。
目標は、テキストプロンプトに記述された動作に応じて、音声属性を相対的に修正することである。
この課題を解決するために,エンドツーエンド生成モデルであるVoxEditorを提案する。
論文 参考訳(メタデータ) (2024-04-13T00:07:40Z) - FluentEditor: Text-based Speech Editing by Considering Acoustic and
Prosody Consistency [44.7425844190807]
テキストベースの音声編集(TSE)技術は、ユーザが音声自体の代わりに入力テキストの書き起こしを変更することで出力オーディオを編集できるように設計されている。
本稿では,TSE訓練における流速を考慮した訓練基準を考慮し,流速音声編集モデルであるtextitFluentEditorを提案する。
VCTKの主観的および客観的な実験結果から,本論文のテキストFluentEditorは,自然性や流布性の観点から,すべての高度なベースラインを上回ります。
論文 参考訳(メタデータ) (2023-09-21T01:58:01Z) - Text-only Domain Adaptation using Unified Speech-Text Representation in
Transducer [12.417314740402587]
本稿では,コンバータ変換器(USTR-CT)における統一音声テキスト表現を学習し,テキストのみのコーパスを用いて高速なドメイン適応を実現する手法を提案する。
SPGISpeechにLibriSpeechを適応させる実験により,提案手法は単語誤り率(WER)を目標領域で相対44%削減することを示した。
論文 参考訳(メタデータ) (2023-06-07T00:33:02Z) - CampNet: Context-Aware Mask Prediction for End-to-End Text-Based Speech
Editing [67.96138567288197]
本稿では,コンテキスト認識型マスク予測ネットワーク(CampNet)と呼ばれる,エンドツーエンドのテキストベースの音声編集手法を提案する。
モデルは、音声の一部をランダムにマスキングしてテキストベースの音声編集プロセスをシミュレートし、音声コンテキストを感知してマスキング領域を予測する。
編集された領域における不自然な韻律を解き、テキスト中の不明瞭な単語に対応する音声を合成することができる。
論文 参考訳(メタデータ) (2022-02-21T02:05:14Z) - EdiTTS: Score-based Editing for Controllable Text-to-Speech [9.34612743192798]
EdiTTSは音声合成のためのスコアベース生成モデルに基づく市販音声編集手法である。
我々は、拡散モデルから所望の振る舞いを誘導するために、ガウス事前空間において粗大で故意に摂動を適用する。
リスニングテストは、EdiTTSがユーザの要求を満たす自然音を確実に生成できることを示した。
論文 参考訳(メタデータ) (2021-10-06T08:51:10Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Context-Aware Prosody Correction for Text-Based Speech Editing [28.459695630420832]
現在のシステムの主な欠点は、編集された地域の周りの韻律のミスマッチのために、編集された録音がしばしば不自然に聞こえることです。
音声のより自然な音声編集のための新しい文脈認識手法を提案する。
論文 参考訳(メタデータ) (2021-02-16T18:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。