論文の概要: AttentionStitch: How Attention Solves the Speech Editing Problem
- arxiv url: http://arxiv.org/abs/2403.04804v1
- Date: Tue, 5 Mar 2024 22:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 22:04:38.508583
- Title: AttentionStitch: How Attention Solves the Speech Editing Problem
- Title(参考訳): AttentionStitch: 音声編集の問題をいかに解決するか
- Authors: Antonios Alexos, Pierre Baldi
- Abstract要約: 我々は、FastSpeech 2のような事前訓練されたテキスト音声合成(TTS)モデルを活用することによって、音声編集に新しいアプローチを提案する。
我々はこのモデルをAttentionStitchと呼び、オーディオサンプルの縫合に注意を払っている。
15名の被験者を対象とし,主観的評価試験と主観的評価試験により,その優れた性能を実証した。
- 参考スコア(独自算出の注目度): 8.901406369717114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generation of natural and high-quality speech from text is a challenging
problem in the field of natural language processing. In addition to speech
generation, speech editing is also a crucial task, which requires the seamless
and unnoticeable integration of edited speech into synthesized speech. We
propose a novel approach to speech editing by leveraging a pre-trained
text-to-speech (TTS) model, such as FastSpeech 2, and incorporating a double
attention block network on top of it to automatically merge the synthesized
mel-spectrogram with the mel-spectrogram of the edited text. We refer to this
model as AttentionStitch, as it harnesses attention to stitch audio samples
together. We evaluate the proposed AttentionStitch model against
state-of-the-art baselines on both single and multi-speaker datasets, namely
LJSpeech and VCTK. We demonstrate its superior performance through an objective
and a subjective evaluation test involving 15 human participants.
AttentionStitch is capable of producing high-quality speech, even for words not
seen during training, while operating automatically without the need for human
intervention. Moreover, AttentionStitch is fast during both training and
inference and is able to generate human-sounding edited speech.
- Abstract(参考訳): 自然言語処理の分野では,テキストから自然言語と高品質音声の生成が課題となっている。
音声生成に加えて、音声編集は重要な課題であり、合成音声への合成音声のシームレスで目立たない統合を必要とする。
本稿では、FastSpeech 2のような事前訓練されたテキスト音声合成(TTS)モデルを活用し、その上に2重注意ブロックネットワークを組み込んで、合成したメル-スペクトログラムと編集したテキストのメル-スペクトログラムを自動マージする、新しい音声編集手法を提案する。
我々はこのモデルをAttentionStitchと呼び、オーディオサンプルの縫合に注意を払っている。
我々は,LJSpeech と VCTK という単一話者と複数話者のデータセット上で,最先端のベースラインに対する AttentionStitch モデルの評価を行った。
客観的評価試験と主観的評価試験により, 被験者15名を対象に, その優れた性能を示す。
AttentionStitchは、トレーニング中に見えない単語でも、人間の介入なしに自動的に操作しながら、高品質な音声を生成することができる。
さらに、AttentionStitchはトレーニングと推論の両方で高速で、人間の声で編集された音声を生成することができる。
関連論文リスト
- Emphasis Rendering for Conversational Text-to-Speech with Multi-modal Multi-scale Context Modeling [40.32021786228235]
Conversational Text-to-Speech (CTTS) は、会話設定内で適切なスタイルで発話を正確に表現することを目的としている。
ER-CTTSと呼ばれるCTTSモデルのための新しい強調レンダリング手法を提案する。
データ不足に対処するため、既存の会話データセット(DailyTalk)に強調強調アノテーションを作成します。
論文 参考訳(メタデータ) (2024-10-12T13:02:31Z) - High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - A$^3$T: Alignment-Aware Acoustic and Text Pretraining for Speech
Synthesis and Editing [31.666920933058144]
本稿では,テキスト入力と音響テキストアライメントによるマスク付き音響信号の再構成を行うアライメント・アウェア・アウェア・アコースティック・テキスト・プレトレーニング(A$3$T)を提案する。
実験では、A$3$Tは、音声編集におけるSOTAモデルよりも優れており、外部話者検証モデルなしでは、マルチスピーカ音声合成を改善する。
論文 参考訳(メタデータ) (2022-03-18T01:36:25Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。