論文の概要: Context-Aware Prosody Correction for Text-Based Speech Editing
- arxiv url: http://arxiv.org/abs/2102.08328v1
- Date: Tue, 16 Feb 2021 18:16:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 14:45:07.061668
- Title: Context-Aware Prosody Correction for Text-Based Speech Editing
- Title(参考訳): テキスト音声編集のための文脈対応韻律補正
- Authors: Max Morrison, Lucas Rencker, Zeyu Jin, Nicholas J. Bryan, Juan-Pablo
Caceres, Bryan Pardo
- Abstract要約: 現在のシステムの主な欠点は、編集された地域の周りの韻律のミスマッチのために、編集された録音がしばしば不自然に聞こえることです。
音声のより自然な音声編集のための新しい文脈認識手法を提案する。
- 参考スコア(独自算出の注目度): 28.459695630420832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based speech editors expedite the process of editing speech recordings
by permitting editing via intuitive cut, copy, and paste operations on a speech
transcript. A major drawback of current systems, however, is that edited
recordings often sound unnatural because of prosody mismatches around edited
regions. In our work, we propose a new context-aware method for more natural
sounding text-based editing of speech. To do so, we 1) use a series of neural
networks to generate salient prosody features that are dependent on the prosody
of speech surrounding the edit and amenable to fine-grained user control 2) use
the generated features to control a standard pitch-shift and time-stretch
method and 3) apply a denoising neural network to remove artifacts induced by
the signal manipulation to yield a high-fidelity result. We evaluate our
approach using a subjective listening test, provide a detailed comparative
analysis, and conclude several interesting insights.
- Abstract(参考訳): テキストベースの音声エディタは、直感的なカット、コピー、ペーストによる音声書き起こし操作を許可することにより、音声録音を編集するプロセスを高速化する。
しかし、現在のシステムの大きな欠点は、編集された領域の周囲の韻律的ミスマッチのために、編集された録音がしばしば不自然に聞こえることである。
本研究では,より自然に音声のテキスト編集を行うための文脈認識手法を提案する。
そこで,本研究では,一連のニューラルネットワークを用いて,編集を囲む音声の韻律に依存し,ユーザ制御の細粒度化が容易な突発的韻律特徴を生成する。2)生成した特徴を用いて,標準ピッチシフト・時間伸長法を制御し,3)信号操作によって引き起こされるアーティファクトを除去し,忠実度の高い結果を得る。
主観的聞き取りテストを用いてアプローチを評価し,詳細な比較分析を行い,いくつかの興味深い知見をまとめる。
関連論文リスト
- Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits [82.8859060022651]
音声入力編集(SINE)データセットをVoiceboxで作成する。
本手法を用いて編集した音声は従来のカット・アンド・ペースト法よりも検出が困難であることを確認した。
人的困難にもかかわらず, 自己監督型検出器は検出, 局所化, 一般化において顕著な性能を発揮することを示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-01-07T14:17:47Z) - FluentEditor2: Text-based Speech Editing by Modeling Multi-Scale Acoustic and Prosody Consistency [40.95700389032375]
テキストベースの音声編集(TSE)により、ユーザーは元の録音を変更することなく、対応するテキストを直接修正して音声を編集できる。
現在のTSE技術は、学習中に生成された音声と編集領域における参照の相違を最小限に抑えることに焦点を当てていることが多い。
従来のtextitFluentEditor モデルである textittextbfFluentEditor2 をベースとした新しい流速音声編集手法を提案する。
論文 参考訳(メタデータ) (2024-09-28T10:18:35Z) - Speech Editing -- a Summary [8.713498822221222]
本稿では,手動による波形編集を必要とせず,テキストの書き起こしによって音声を編集するテキストベースの音声編集手法について検討する。
目的は、進行中の問題を強調し、音声編集におけるさらなる研究と革新を刺激することである。
論文 参考訳(メタデータ) (2024-07-24T11:22:57Z) - FluentEditor: Text-based Speech Editing by Considering Acoustic and
Prosody Consistency [44.7425844190807]
テキストベースの音声編集(TSE)技術は、ユーザが音声自体の代わりに入力テキストの書き起こしを変更することで出力オーディオを編集できるように設計されている。
本稿では,TSE訓練における流速を考慮した訓練基準を考慮し,流速音声編集モデルであるtextitFluentEditorを提案する。
VCTKの主観的および客観的な実験結果から,本論文のテキストFluentEditorは,自然性や流布性の観点から,すべての高度なベースラインを上回ります。
論文 参考訳(メタデータ) (2023-09-21T01:58:01Z) - Emotion Selectable End-to-End Text-based Speech Editing [63.346825713704625]
Emo-CampNet (Emotion CampNet) は感情選択可能なテキストベースの音声編集モデルである。
テキストベースの音声編集において、生成した音声の感情を効果的に制御することができる。
未知の話者のスピーチを編集することもできる。
論文 参考訳(メタデータ) (2022-12-20T12:02:40Z) - CampNet: Context-Aware Mask Prediction for End-to-End Text-Based Speech
Editing [67.96138567288197]
本稿では,コンテキスト認識型マスク予測ネットワーク(CampNet)と呼ばれる,エンドツーエンドのテキストベースの音声編集手法を提案する。
モデルは、音声の一部をランダムにマスキングしてテキストベースの音声編集プロセスをシミュレートし、音声コンテキストを感知してマスキング領域を予測する。
編集された領域における不自然な韻律を解き、テキスト中の不明瞭な単語に対応する音声を合成することができる。
論文 参考訳(メタデータ) (2022-02-21T02:05:14Z) - Transcribing Natural Languages for The Deaf via Neural Editing Programs [84.0592111546958]
本研究の目的は,難聴者コミュニティのための自然言語文の書き起こしを目的とし,手話の発声を指示するグロス化の課題について検討することである。
以前のシーケンス・ツー・シーケンス言語モデルは、しばしば2つの異なる言語間の豊かな関係を捉えず、不満足な書き起こしにつながる。
異なる文法に拘わらず,単語の大部分を文と共有しながら,難聴コミュニケーションの容易な文を効果的に単純化することが観察された。
論文 参考訳(メタデータ) (2021-12-17T16:21:49Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。