Fugu-MT 論文翻訳(概要): FluentEditor: Text-based Speech Editing by Considering Acoustic and Prosody Consistency

論文の概要: FluentEditor: Text-based Speech Editing by Considering Acoustic and Prosody Consistency

arxiv url: http://arxiv.org/abs/2309.11725v2
Date: Fri, 22 Sep 2023 02:05:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-25 11:46:10.319587
Title: FluentEditor: Text-based Speech Editing by Considering Acoustic and Prosody Consistency
Title（参考訳）: FluentEditor:音響・韻律整合性を考慮したテキスト音声編集
Authors: Rui Liu, Jiatian Xi, Ziyue Jiang and Haizhou Li
Abstract要約: テキストベースの音声編集(TSE)技術は、ユーザが音声自体の代わりに入力テキストの書き起こしを変更することで出力オーディオを編集できるように設計されている。本稿では,TSE訓練における流速を考慮した訓練基準を考慮し,流速音声編集モデルであるtextitFluentEditorを提案する。 VCTKの主観的および客観的な実験結果から,本論文のテキストFluentEditorは,自然性や流布性の観点から,すべての高度なベースラインを上回ります。
参考スコア（独自算出の注目度）: 44.7425844190807
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-based speech editing (TSE) techniques are designed to enable users to edit the output audio by modifying the input text transcript instead of the audio itself. Despite much progress in neural network-based TSE techniques, the current techniques have focused on reducing the difference between the generated speech segment and the reference target in the editing region, ignoring its local and global fluency in the context and original utterance. To maintain the speech fluency, we propose a fluency speech editing model, termed \textit{FluentEditor}, by considering fluency-aware training criterion in the TSE training. Specifically, the \textit{acoustic consistency constraint} aims to smooth the transition between the edited region and its neighboring acoustic segments consistent with the ground truth, while the \textit{prosody consistency constraint} seeks to ensure that the prosody attributes within the edited regions remain consistent with the overall style of the original utterance. The subjective and objective experimental results on VCTK demonstrate that our \textit{FluentEditor} outperforms all advanced baselines in terms of naturalness and fluency. The audio samples and code are available at \url{https://github.com/Ai-S2-Lab/FluentEditor}.
Abstract（参考訳）: テキストベースの音声編集(TSE)技術は、ユーザが音声自体の代わりに入力テキストの書き起こしを変更することで出力オーディオを編集できるように設計されている。ニューラルネットワークベースのTSE技術の進歩にもかかわらず、現在の技術は、生成した音声セグメントと編集領域の参照ターゲットとの差を減らし、文脈や本来の発話における局所的・グローバル的流布を無視している。本稿では,TSE訓練における流速を考慮した訓練基準を考慮し,流速音声編集モデルである「textit{FluentEditor}」を提案する。特に、 \textit{acoustic consistency constraints} は、編集された領域とその隣接する音響セグメント間の遷移を、基底の真理と整合させることを目的としており、一方 \textit{prosody consistency constraints} は、編集された領域内の韻律属性が元の発話の全体的なスタイルと一致し続けることを保証することを目的としている。 VCTKの主観的,客観的な実験結果から,我々の『textit{FluentEditor}』は自然さと流布度で全ての先進的ベースラインを上回ります。オーディオサンプルとコードは \url{https://github.com/Ai-S2-Lab/FluentEditor} で公開されている。

関連論文リスト

RFM-Editing: Rectified Flow Matching for Text-guided Audio Editing [21.479883699581308]
そこで本研究では,音声編集のための効率のよいフロー整合型拡散フレームワークを提案する。実験の結果,補助的なキャプションやマスクを必要とせず,忠実なセマンティックアライメントを実現することができた。
論文参考訳（メタデータ） (2025-09-17T14:13:40Z)
Text-Queried Audio Source Separation via Hierarchical Modeling [53.94434504259829]
本研究では,HSM-TSSという階層的分解フレームワークを提案し,そのタスクをグローバルな意味誘導特徴分離と構造保存音響再構成に分解する。 Q-Audioアーキテクチャは、事前訓練されたグローバルセマンティックエンコーダとして機能するオーディオとテキストのモダリティを調整するために使用される。本手法は,複雑な聴覚シーンにおけるクエリとのセマンティック一貫性を保ちながら,データ効率のトレーニングによる最先端の分離性能を実現する。
論文参考訳（メタデータ） (2025-05-27T11:00:38Z)
Towards Emotionally Consistent Text-Based Speech Editing: Introducing EmoCorrector and The ECD-TSE Dataset [52.95197015472105]
EmoCorrectorはテキストベースの音声編集のための新しいポスト補正方式である。編集されたテキストの感情的特徴を検索し、一致する感情で音声サンプルを検索し、所望の感情に合わせて音声を合成する。 EmoCorrectorは、現在のTSEメソッドにおける感情の不整合に対処しながら、意図した感情の発現を著しく向上させる。
論文参考訳（メタデータ） (2025-05-24T16:10:56Z)
FluentEditor+: Text-based Speech Editing by Modeling Local Hierarchical Acoustic Smoothness and Global Prosody Consistency [40.95700389032375]
テキストベースの音声編集(TSE)では、ユーザーは対応するテキストを編集し、カット、コピー、ペーストなどの操作を実行することで音声を修正できる。現在のTSE技術は、生成した音声と、編集されたセグメント内の参照ターゲットとの相違を最小化することに焦点を当てている。音声の未修正部分と編集部分のシームレスな統合は難しいままです本稿ではこれらの制限を克服するために設計された新しいアプローチであるFluentEditor$tiny +$を紹介する。
論文参考訳（メタデータ） (2024-09-28T10:18:35Z)
DiffEditor: Enhancing Speech Editing with Semantic Enrichment and Acoustic Consistency [20.3466261946094]
我々は,OODテキストシナリオの性能向上を目的とした新しい音声編集モデルであるDiffEditorを紹介する。事前学習した言語モデルから抽出した単語埋め込みを統合することで,音素埋め込みの意味情報を豊かにする。本稿では、編集境界におけるスムーズな遷移を促進し、編集された音声の全体的な流速を高めるための1次損失関数を提案する。
論文参考訳（メタデータ） (2024-09-19T07:11:54Z)
Voice Attribute Editing with Text Prompt [48.48628304530097]
本稿では,テキストプロンプトを用いた音声属性編集という新しい課題を紹介する。目標は、テキストプロンプトに記述された動作に応じて、音声属性を相対的に修正することである。この課題を解決するために,エンドツーエンド生成モデルであるVoxEditorを提案する。
論文参考訳（メタデータ） (2024-04-13T00:07:40Z)
CampNet: Context-Aware Mask Prediction for End-to-End Text-Based Speech Editing [67.96138567288197]
本稿では,コンテキスト認識型マスク予測ネットワーク(CampNet)と呼ばれる,エンドツーエンドのテキストベースの音声編集手法を提案する。モデルは、音声の一部をランダムにマスキングしてテキストベースの音声編集プロセスをシミュレートし、音声コンテキストを感知してマスキング領域を予測する。編集された領域における不自然な韻律を解き、テキスト中の不明瞭な単語に対応する音声を合成することができる。
論文参考訳（メタデータ） (2022-02-21T02:05:14Z)
EdiTTS: Score-based Editing for Controllable Text-to-Speech [9.34612743192798]
EdiTTSは音声合成のためのスコアベース生成モデルに基づく市販音声編集手法である。我々は、拡散モデルから所望の振る舞いを誘導するために、ガウス事前空間において粗大で故意に摂動を適用する。リスニングテストは、EdiTTSがユーザの要求を満たす自然音を確実に生成できることを示した。
論文参考訳（メタデータ） (2021-10-06T08:51:10Z)
Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文参考訳（メタデータ） (2021-09-12T04:17:53Z)
Context-Aware Prosody Correction for Text-Based Speech Editing [28.459695630420832]
現在のシステムの主な欠点は、編集された地域の周りの韻律のミスマッチのために、編集された録音がしばしば不自然に聞こえることです。音声のより自然な音声編集のための新しい文脈認識手法を提案する。
論文参考訳（メタデータ） (2021-02-16T18:16:30Z)
Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文参考訳（メタデータ） (2020-10-28T12:33:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。