Fugu-MT 論文翻訳(概要): Context-Aware Prosody Correction for Text-Based Speech Editing

論文の概要: Context-Aware Prosody Correction for Text-Based Speech Editing

arxiv url: http://arxiv.org/abs/2102.08328v1
Date: Tue, 16 Feb 2021 18:16:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-17 14:45:07.061668
Title: Context-Aware Prosody Correction for Text-Based Speech Editing
Title（参考訳）: テキスト音声編集のための文脈対応韻律補正
Authors: Max Morrison, Lucas Rencker, Zeyu Jin, Nicholas J. Bryan, Juan-Pablo Caceres, Bryan Pardo
Abstract要約: 現在のシステムの主な欠点は、編集された地域の周りの韻律のミスマッチのために、編集された録音がしばしば不自然に聞こえることです。音声のより自然な音声編集のための新しい文脈認識手法を提案する。
参考スコア（独自算出の注目度）: 28.459695630420832
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-based speech editors expedite the process of editing speech recordings by permitting editing via intuitive cut, copy, and paste operations on a speech transcript. A major drawback of current systems, however, is that edited recordings often sound unnatural because of prosody mismatches around edited regions. In our work, we propose a new context-aware method for more natural sounding text-based editing of speech. To do so, we 1) use a series of neural networks to generate salient prosody features that are dependent on the prosody of speech surrounding the edit and amenable to fine-grained user control 2) use the generated features to control a standard pitch-shift and time-stretch method and 3) apply a denoising neural network to remove artifacts induced by the signal manipulation to yield a high-fidelity result. We evaluate our approach using a subjective listening test, provide a detailed comparative analysis, and conclude several interesting insights.
Abstract（参考訳）: テキストベースの音声エディタは、直感的なカット、コピー、ペーストによる音声書き起こし操作を許可することにより、音声録音を編集するプロセスを高速化する。しかし、現在のシステムの大きな欠点は、編集された領域の周囲の韻律的ミスマッチのために、編集された録音がしばしば不自然に聞こえることである。本研究では,より自然に音声のテキスト編集を行うための文脈認識手法を提案する。そこで,本研究では,一連のニューラルネットワークを用いて,編集を囲む音声の韻律に依存し,ユーザ制御の細粒度化が容易な突発的韻律特徴を生成する。2)生成した特徴を用いて,標準ピッチシフト・時間伸長法を制御し,3)信号操作によって引き起こされるアーティファクトを除去し,忠実度の高い結果を得る。主観的聞き取りテストを用いてアプローチを評価し,詳細な比較分析を行い,いくつかの興味深い知見をまとめる。

関連論文リスト

Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits [82.8859060022651]
音声入力編集(SINE)データセットをVoiceboxで作成する。本手法を用いて編集した音声は従来のカット・アンド・ペースト法よりも検出が困難であることを確認した。人的困難にもかかわらず, 自己監督型検出器は検出, 局所化, 一般化において顕著な性能を発揮することを示す実験結果が得られた。
論文参考訳（メタデータ） (2025-01-07T14:17:47Z)
FluentEditor+: Text-based Speech Editing by Modeling Local Hierarchical Acoustic Smoothness and Global Prosody Consistency [40.95700389032375]
テキストベースの音声編集(TSE)では、ユーザーは対応するテキストを編集し、カット、コピー、ペーストなどの操作を実行することで音声を修正できる。現在のTSE技術は、生成した音声と、編集されたセグメント内の参照ターゲットとの相違を最小化することに焦点を当てている。音声の未修正部分と編集部分のシームレスな統合は難しいままです本稿ではこれらの制限を克服するために設計された新しいアプローチであるFluentEditor$tiny +$を紹介する。
論文参考訳（メタデータ） (2024-09-28T10:18:35Z)
Speech Editing -- a Summary [8.713498822221222]
本稿では,手動による波形編集を必要とせず,テキストの書き起こしによって音声を編集するテキストベースの音声編集手法について検討する。目的は、進行中の問題を強調し、音声編集におけるさらなる研究と革新を刺激することである。
論文参考訳（メタデータ） (2024-07-24T11:22:57Z)
Towards General-Purpose Text-Instruction-Guided Voice Conversion [84.78206348045428]
本稿では,「深い声調でゆっくり発声する」や「陽気な少年声で話す」といったテキスト指示によって導かれる,新しい音声変換モデルを提案する。提案したVCモデルは、離散コード列を処理するニューラルネットワークモデルであり、変換された音声のコード列を生成する。
論文参考訳（メタデータ） (2023-09-25T17:52:09Z)
FluentEditor: Text-based Speech Editing by Considering Acoustic and Prosody Consistency [44.7425844190807]
テキストベースの音声編集(TSE)技術は、ユーザが音声自体の代わりに入力テキストの書き起こしを変更することで出力オーディオを編集できるように設計されている。本稿では,TSE訓練における流速を考慮した訓練基準を考慮し,流速音声編集モデルであるtextitFluentEditorを提案する。 VCTKの主観的および客観的な実験結果から,本論文のテキストFluentEditorは,自然性や流布性の観点から,すべての高度なベースラインを上回ります。
論文参考訳（メタデータ） (2023-09-21T01:58:01Z)
Emotion Selectable End-to-End Text-based Speech Editing [63.346825713704625]
Emo-CampNet (Emotion CampNet) は感情選択可能なテキストベースの音声編集モデルである。テキストベースの音声編集において、生成した音声の感情を効果的に制御することができる。未知の話者のスピーチを編集することもできる。
論文参考訳（メタデータ） (2022-12-20T12:02:40Z)
CampNet: Context-Aware Mask Prediction for End-to-End Text-Based Speech Editing [67.96138567288197]
本稿では,コンテキスト認識型マスク予測ネットワーク(CampNet)と呼ばれる,エンドツーエンドのテキストベースの音声編集手法を提案する。モデルは、音声の一部をランダムにマスキングしてテキストベースの音声編集プロセスをシミュレートし、音声コンテキストを感知してマスキング領域を予測する。編集された領域における不自然な韻律を解き、テキスト中の不明瞭な単語に対応する音声を合成することができる。
論文参考訳（メタデータ） (2022-02-21T02:05:14Z)
Transcribing Natural Languages for The Deaf via Neural Editing Programs [84.0592111546958]
本研究の目的は,難聴者コミュニティのための自然言語文の書き起こしを目的とし,手話の発声を指示するグロス化の課題について検討することである。以前のシーケンス・ツー・シーケンス言語モデルは、しばしば2つの異なる言語間の豊かな関係を捉えず、不満足な書き起こしにつながる。異なる文法に拘わらず,単語の大部分を文と共有しながら,難聴コミュニケーションの容易な文を効果的に単純化することが観察された。
論文参考訳（メタデータ） (2021-12-17T16:21:49Z)
Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文参考訳（メタデータ） (2021-09-12T04:17:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。