論文の概要: CampNet: Context-Aware Mask Prediction for End-to-End Text-Based Speech
Editing
- arxiv url: http://arxiv.org/abs/2202.09950v1
- Date: Mon, 21 Feb 2022 02:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 10:33:30.696401
- Title: CampNet: Context-Aware Mask Prediction for End-to-End Text-Based Speech
Editing
- Title(参考訳): CampNet: エンドツーエンド音声編集のためのコンテキスト対応マスク予測
- Authors: Tao Wang, Jiangyan Yi, Ruibo Fu, Jianhua Tao, Zhengqi Wen
- Abstract要約: 本稿では,コンテキスト認識型マスク予測ネットワーク(CampNet)と呼ばれる,エンドツーエンドのテキストベースの音声編集手法を提案する。
モデルは、音声の一部をランダムにマスキングしてテキストベースの音声編集プロセスをシミュレートし、音声コンテキストを感知してマスキング領域を予測する。
編集された領域における不自然な韻律を解き、テキスト中の不明瞭な単語に対応する音声を合成することができる。
- 参考スコア(独自算出の注目度): 67.96138567288197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The text-based speech editor allows the editing of speech through intuitive
cutting, copying, and pasting operations to speed up the process of editing
speech. However, the major drawback of current systems is that edited speech
often sounds unnatural due to cut-copy-paste operation. In addition, it is not
obvious how to synthesize records according to a new word not appearing in the
transcript. This paper proposes a novel end-to-end text-based speech editing
method called context-aware mask prediction network (CampNet). The model can
simulate the text-based speech editing process by randomly masking part of
speech and then predicting the masked region by sensing the speech context. It
can solve unnatural prosody in the edited region and synthesize the speech
corresponding to the unseen words in the transcript. Secondly, for the possible
operation of text-based speech editing, we design three text-based operations
based on CampNet: deletion, insertion, and replacement. These operations can
cover various situations of speech editing. Thirdly, to synthesize the speech
corresponding to long text in insertion and replacement operations, a
word-level autoregressive generation method is proposed. Fourthly, we propose a
speaker adaptation method using only one sentence for CampNet and explore the
ability of few-shot learning based on CampNet, which provides a new idea for
speech forgery tasks. The subjective and objective experiments on VCTK and
LibriTTS datasets show that the speech editing results based on CampNet are
better than TTS technology, manual editing, and VoCo method. We also conduct
detailed ablation experiments to explore the effect of the CampNet structure on
its performance. Finally, the experiment shows that speaker adaptation with
only one sentence can further improve the naturalness of speech. Examples of
generated speech can be found at https://hairuo55.github.io/CampNet.
- Abstract(参考訳): テキストベースの音声エディタは、直感的なカット、コピー、ペースト操作による音声の編集を可能にし、音声の編集プロセスを高速化する。
しかし、現在のシステムの主な欠点は、カットコピー・ペースト操作により、しばしば編集された音声が不自然に聞こえることである。
また、書き起こしに現れない新語に従ってレコードを合成する方法も明確ではない。
本稿では,コンテキスト認識型マスク予測ネットワーク(CampNet)と呼ばれる,エンドツーエンドのテキストベースの音声編集手法を提案する。
モデルは、音声の一部をランダムにマスキングしてテキストベースの音声編集プロセスをシミュレートし、音声コンテキストを感知してマスキング領域を予測する。
編集領域における不自然な韻律を解き、原稿中の見当たらない単語に対応する音声を合成することができる。
第2に,テキストベースの音声編集を実現するために,campnetに基づく3つのテキストベースの操作(削除,挿入,置換)を設計する。
これらの操作は、音声編集の様々な状況をカバーすることができる。
第3に,挿入・置換操作における長文に対応する音声を合成するために,単語レベルの自己回帰生成手法を提案する。
第4に,campnetに1文のみを用いた話者適応法を提案し,campnetに基づく少数発学習の能力について検討する。
VCTKとLibriTTSデータセットの主観的および客観的実験は、CampNetに基づく音声編集結果がTS技術、手動編集、VoCo法よりも優れていることを示している。
また、CampNet構造が性能に与える影響について詳細なアブレーション実験を行った。
最後に, 1文のみの話者適応により, 音声の自然性がさらに向上することを示す。
生成された音声の例は https://hairuo55.github.io/CampNet にある。
関連論文リスト
- FluentEditor+: Text-based Speech Editing by Modeling Local Hierarchical Acoustic Smoothness and Global Prosody Consistency [40.95700389032375]
テキストベースの音声編集(TSE)では、ユーザーは対応するテキストを編集し、カット、コピー、ペーストなどの操作を実行することで音声を修正できる。
現在のTSE技術は、生成した音声と、編集されたセグメント内の参照ターゲットとの相違を最小化することに焦点を当てている。
音声の未修正部分と 編集部分のシームレスな統合は 難しいままです
本稿ではこれらの制限を克服するために設計された新しいアプローチであるFluentEditor$tiny +$を紹介する。
論文 参考訳(メタデータ) (2024-09-28T10:18:35Z) - Speech Editing -- a Summary [8.713498822221222]
本稿では,手動による波形編集を必要とせず,テキストの書き起こしによって音声を編集するテキストベースの音声編集手法について検討する。
目的は、進行中の問題を強調し、音声編集におけるさらなる研究と革新を刺激することである。
論文 参考訳(メタデータ) (2024-07-24T11:22:57Z) - Emotion Selectable End-to-End Text-based Speech Editing [63.346825713704625]
Emo-CampNet (Emotion CampNet) は感情選択可能なテキストベースの音声編集モデルである。
テキストベースの音声編集において、生成した音声の感情を効果的に制御することができる。
未知の話者のスピーチを編集することもできる。
論文 参考訳(メタデータ) (2022-12-20T12:02:40Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Context-Aware Prosody Correction for Text-Based Speech Editing [28.459695630420832]
現在のシステムの主な欠点は、編集された地域の周りの韻律のミスマッチのために、編集された録音がしばしば不自然に聞こえることです。
音声のより自然な音声編集のための新しい文脈認識手法を提案する。
論文 参考訳(メタデータ) (2021-02-16T18:16:30Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。