論文の概要: FluentEditor: Text-based Speech Editing by Considering Acoustic and
Prosody Consistency
- arxiv url: http://arxiv.org/abs/2309.11725v1
- Date: Thu, 21 Sep 2023 01:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 17:14:41.362884
- Title: FluentEditor: Text-based Speech Editing by Considering Acoustic and
Prosody Consistency
- Title(参考訳): FluentEditor:音響・韻律整合性を考慮したテキスト音声編集
- Authors: Rui Liu, Jiatian Xi, Ziyue Jiang and Haizhou Li
- Abstract要約: テキストベースの音声編集(TSE)技術は、ユーザが音声自体の代わりに入力テキストの書き起こしを変更することで出力オーディオを編集できるように設計されている。
本稿では,TSE訓練における流速を考慮した訓練基準を考慮し,流速音声編集モデルであるtextitFluentEditorを提案する。
VCTKの主観的および客観的な実験結果から,本論文のテキストFluentEditorは,自然性や流布性の観点から,すべての高度なベースラインを上回ります。
- 参考スコア(独自算出の注目度): 44.7425844190807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based speech editing (TSE) techniques are designed to enable users to
edit the output audio by modifying the input text transcript instead of the
audio itself. Despite much progress in neural network-based TSE techniques, the
current techniques have focused on reducing the difference between the
generated speech segment and the reference target in the editing region,
ignoring its local and global fluency in the context and original utterance. To
maintain the speech fluency, we propose a fluency speech editing model, termed
\textit{FluentEditor}, by considering fluency-aware training criterion in the
TSE training. Specifically, the \textit{acoustic consistency constraint} aims
to smooth the transition between the edited region and its neighboring acoustic
segments consistent with the ground truth, while the \textit{prosody
consistency constraint} seeks to ensure that the prosody attributes within the
edited regions remain consistent with the overall style of the original
utterance. The subjective and objective experimental results on VCTK
demonstrate that our \textit{FluentEditor} outperforms all advanced baselines
in terms of naturalness and fluency. The audio samples and code are available
at \url{https://github.com/Ai-S2-Lab/FluentEditor}.
- Abstract(参考訳): テキストベースの音声編集(TSE)技術は、ユーザが音声自体の代わりに入力テキストの書き起こしを変更することで出力オーディオを編集できるように設計されている。
ニューラルネットワークベースのTSE技術の進歩にもかかわらず、現在の技術は、生成した音声セグメントと編集領域の参照ターゲットとの差を減らし、文脈や本来の発話における局所的・グローバル的流布を無視している。
本稿では,TSE訓練における流速を考慮した訓練基準を考慮し,流速音声編集モデルである「textit{FluentEditor}」を提案する。
特に、 \textit{acoustic consistency constraints} は、編集された領域とその隣接する音響セグメント間の遷移を、基底の真理と整合させることを目的としており、一方 \textit{prosody consistency constraints} は、編集された領域内の韻律属性が元の発話の全体的なスタイルと一致し続けることを保証することを目的としている。
VCTKの主観的,客観的な実験結果から,我々の『textit{FluentEditor}』は自然さと流布度で全ての先進的ベースラインを上回ります。
オーディオサンプルとコードは \url{https://github.com/Ai-S2-Lab/FluentEditor} で公開されている。
関連論文リスト
- FluentEditor+: Text-based Speech Editing by Modeling Local Hierarchical Acoustic Smoothness and Global Prosody Consistency [40.95700389032375]
テキストベースの音声編集(TSE)では、ユーザーは対応するテキストを編集し、カット、コピー、ペーストなどの操作を実行することで音声を修正できる。
現在のTSE技術は、生成した音声と、編集されたセグメント内の参照ターゲットとの相違を最小化することに焦点を当てている。
音声の未修正部分と 編集部分のシームレスな統合は 難しいままです
本稿ではこれらの制限を克服するために設計された新しいアプローチであるFluentEditor$tiny +$を紹介する。
論文 参考訳(メタデータ) (2024-09-28T10:18:35Z) - DiffEditor: Enhancing Speech Editing with Semantic Enrichment and Acoustic Consistency [20.3466261946094]
我々は,OODテキストシナリオの性能向上を目的とした新しい音声編集モデルであるDiffEditorを紹介する。
事前学習した言語モデルから抽出した単語埋め込みを統合することで,音素埋め込みの意味情報を豊かにする。
本稿では、編集境界におけるスムーズな遷移を促進し、編集された音声の全体的な流速を高めるための1次損失関数を提案する。
論文 参考訳(メタデータ) (2024-09-19T07:11:54Z) - Voice Attribute Editing with Text Prompt [48.48628304530097]
本稿では,テキストプロンプトを用いた音声属性編集という新しい課題を紹介する。
目標は、テキストプロンプトに記述された動作に応じて、音声属性を相対的に修正することである。
この課題を解決するために,エンドツーエンド生成モデルであるVoxEditorを提案する。
論文 参考訳(メタデータ) (2024-04-13T00:07:40Z) - CampNet: Context-Aware Mask Prediction for End-to-End Text-Based Speech
Editing [67.96138567288197]
本稿では,コンテキスト認識型マスク予測ネットワーク(CampNet)と呼ばれる,エンドツーエンドのテキストベースの音声編集手法を提案する。
モデルは、音声の一部をランダムにマスキングしてテキストベースの音声編集プロセスをシミュレートし、音声コンテキストを感知してマスキング領域を予測する。
編集された領域における不自然な韻律を解き、テキスト中の不明瞭な単語に対応する音声を合成することができる。
論文 参考訳(メタデータ) (2022-02-21T02:05:14Z) - EdiTTS: Score-based Editing for Controllable Text-to-Speech [9.34612743192798]
EdiTTSは音声合成のためのスコアベース生成モデルに基づく市販音声編集手法である。
我々は、拡散モデルから所望の振る舞いを誘導するために、ガウス事前空間において粗大で故意に摂動を適用する。
リスニングテストは、EdiTTSがユーザの要求を満たす自然音を確実に生成できることを示した。
論文 参考訳(メタデータ) (2021-10-06T08:51:10Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Context-Aware Prosody Correction for Text-Based Speech Editing [28.459695630420832]
現在のシステムの主な欠点は、編集された地域の周りの韻律のミスマッチのために、編集された録音がしばしば不自然に聞こえることです。
音声のより自然な音声編集のための新しい文脈認識手法を提案する。
論文 参考訳(メタデータ) (2021-02-16T18:16:30Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。