論文の概要: Context-Aware Prosody Correction for Text-Based Speech Editing
- arxiv url: http://arxiv.org/abs/2102.08328v1
- Date: Tue, 16 Feb 2021 18:16:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 14:45:07.061668
- Title: Context-Aware Prosody Correction for Text-Based Speech Editing
- Title(参考訳): テキスト音声編集のための文脈対応韻律補正
- Authors: Max Morrison, Lucas Rencker, Zeyu Jin, Nicholas J. Bryan, Juan-Pablo
Caceres, Bryan Pardo
- Abstract要約: 現在のシステムの主な欠点は、編集された地域の周りの韻律のミスマッチのために、編集された録音がしばしば不自然に聞こえることです。
音声のより自然な音声編集のための新しい文脈認識手法を提案する。
- 参考スコア(独自算出の注目度): 28.459695630420832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based speech editors expedite the process of editing speech recordings
by permitting editing via intuitive cut, copy, and paste operations on a speech
transcript. A major drawback of current systems, however, is that edited
recordings often sound unnatural because of prosody mismatches around edited
regions. In our work, we propose a new context-aware method for more natural
sounding text-based editing of speech. To do so, we 1) use a series of neural
networks to generate salient prosody features that are dependent on the prosody
of speech surrounding the edit and amenable to fine-grained user control 2) use
the generated features to control a standard pitch-shift and time-stretch
method and 3) apply a denoising neural network to remove artifacts induced by
the signal manipulation to yield a high-fidelity result. We evaluate our
approach using a subjective listening test, provide a detailed comparative
analysis, and conclude several interesting insights.
- Abstract(参考訳): テキストベースの音声エディタは、直感的なカット、コピー、ペーストによる音声書き起こし操作を許可することにより、音声録音を編集するプロセスを高速化する。
しかし、現在のシステムの大きな欠点は、編集された領域の周囲の韻律的ミスマッチのために、編集された録音がしばしば不自然に聞こえることである。
本研究では,より自然に音声のテキスト編集を行うための文脈認識手法を提案する。
そこで,本研究では,一連のニューラルネットワークを用いて,編集を囲む音声の韻律に依存し,ユーザ制御の細粒度化が容易な突発的韻律特徴を生成する。2)生成した特徴を用いて,標準ピッチシフト・時間伸長法を制御し,3)信号操作によって引き起こされるアーティファクトを除去し,忠実度の高い結果を得る。
主観的聞き取りテストを用いてアプローチを評価し,詳細な比較分析を行い,いくつかの興味深い知見をまとめる。
関連論文リスト
- FluentEditor+: Text-based Speech Editing by Modeling Local Hierarchical Acoustic Smoothness and Global Prosody Consistency [40.95700389032375]
テキストベースの音声編集(TSE)では、ユーザーは対応するテキストを編集し、カット、コピー、ペーストなどの操作を実行することで音声を修正できる。
現在のTSE技術は、生成した音声と、編集されたセグメント内の参照ターゲットとの相違を最小化することに焦点を当てている。
音声の未修正部分と 編集部分のシームレスな統合は 難しいままです
本稿ではこれらの制限を克服するために設計された新しいアプローチであるFluentEditor$tiny +$を紹介する。
論文 参考訳(メタデータ) (2024-09-28T10:18:35Z) - Speech Editing -- a Summary [8.713498822221222]
本稿では,手動による波形編集を必要とせず,テキストの書き起こしによって音声を編集するテキストベースの音声編集手法について検討する。
目的は、進行中の問題を強調し、音声編集におけるさらなる研究と革新を刺激することである。
論文 参考訳(メタデータ) (2024-07-24T11:22:57Z) - Towards General-Purpose Text-Instruction-Guided Voice Conversion [84.78206348045428]
本稿では,「深い声調でゆっくり発声する」や「陽気な少年声で話す」といったテキスト指示によって導かれる,新しい音声変換モデルを提案する。
提案したVCモデルは、離散コード列を処理するニューラルネットワークモデルであり、変換された音声のコード列を生成する。
論文 参考訳(メタデータ) (2023-09-25T17:52:09Z) - FluentEditor: Text-based Speech Editing by Considering Acoustic and
Prosody Consistency [44.7425844190807]
テキストベースの音声編集(TSE)技術は、ユーザが音声自体の代わりに入力テキストの書き起こしを変更することで出力オーディオを編集できるように設計されている。
本稿では,TSE訓練における流速を考慮した訓練基準を考慮し,流速音声編集モデルであるtextitFluentEditorを提案する。
VCTKの主観的および客観的な実験結果から,本論文のテキストFluentEditorは,自然性や流布性の観点から,すべての高度なベースラインを上回ります。
論文 参考訳(メタデータ) (2023-09-21T01:58:01Z) - Emotion Selectable End-to-End Text-based Speech Editing [63.346825713704625]
Emo-CampNet (Emotion CampNet) は感情選択可能なテキストベースの音声編集モデルである。
テキストベースの音声編集において、生成した音声の感情を効果的に制御することができる。
未知の話者のスピーチを編集することもできる。
論文 参考訳(メタデータ) (2022-12-20T12:02:40Z) - CampNet: Context-Aware Mask Prediction for End-to-End Text-Based Speech
Editing [67.96138567288197]
本稿では,コンテキスト認識型マスク予測ネットワーク(CampNet)と呼ばれる,エンドツーエンドのテキストベースの音声編集手法を提案する。
モデルは、音声の一部をランダムにマスキングしてテキストベースの音声編集プロセスをシミュレートし、音声コンテキストを感知してマスキング領域を予測する。
編集された領域における不自然な韻律を解き、テキスト中の不明瞭な単語に対応する音声を合成することができる。
論文 参考訳(メタデータ) (2022-02-21T02:05:14Z) - Transcribing Natural Languages for The Deaf via Neural Editing Programs [84.0592111546958]
本研究の目的は,難聴者コミュニティのための自然言語文の書き起こしを目的とし,手話の発声を指示するグロス化の課題について検討することである。
以前のシーケンス・ツー・シーケンス言語モデルは、しばしば2つの異なる言語間の豊かな関係を捉えず、不満足な書き起こしにつながる。
異なる文法に拘わらず,単語の大部分を文と共有しながら,難聴コミュニケーションの容易な文を効果的に単純化することが観察された。
論文 参考訳(メタデータ) (2021-12-17T16:21:49Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。