論文の概要: Voice Attribute Editing with Text Prompt
- arxiv url: http://arxiv.org/abs/2404.08857v2
- Date: Sun, 01 Dec 2024 03:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 16:54:48.993019
- Title: Voice Attribute Editing with Text Prompt
- Title(参考訳): テキストプロンプトによる音声属性編集
- Authors: Zhengyan Sheng, Yang Ai, Li-Juan Liu, Jia Pan, Zhen-Hua Ling,
- Abstract要約: 本稿では,テキストプロンプトを用いた音声属性編集という新しい課題を紹介する。
目標は、テキストプロンプトに記述された動作に応じて、音声属性を相対的に修正することである。
この課題を解決するために,エンドツーエンド生成モデルであるVoxEditorを提案する。
- 参考スコア(独自算出の注目度): 48.48628304530097
- License:
- Abstract: Despite recent advancements in speech generation with text prompt providing control over speech style, voice attributes in synthesized speech remain elusive and challenging to control. This paper introduces a novel task: voice attribute editing with text prompt, with the goal of making relative modifications to voice attributes according to the actions described in the text prompt. To solve this task, VoxEditor, an end-to-end generative model, is proposed. In VoxEditor, addressing the insufficiency of text prompt, a Residual Memory (ResMem) block is designed, that efficiently maps voice attributes and these descriptors into the shared feature space. Additionally, the ResMem block is enhanced with a voice attribute degree prediction (VADP) block to align voice attributes with corresponding descriptors, addressing the imprecision of text prompt caused by non-quantitative descriptions of voice attributes. We also establish the open-source VCTK-RVA dataset, which leads the way in manual annotations detailing voice characteristic differences among different speakers. Extensive experiments demonstrate the effectiveness and generalizability of our proposed method in terms of both objective and subjective metrics. The dataset and audio samples are available on the website.
- Abstract(参考訳): 近年,テキストによる音声生成の進歩により,音声スタイルの制御が可能になったが,合成音声における音声属性の理解は困難であり,制御が困難である。
本稿では,テキストプロンプトに記述された動作に応じて音声属性を相対的に修正することを目的とした,テキストプロンプトを用いた音声属性編集という新しいタスクを紹介する。
この課題を解決するために,エンドツーエンド生成モデルであるVoxEditorを提案する。
テキストプロンプトの不足に対処するVoxEditorでは、音声属性とこれらの記述子を共有機能空間に効率的にマッピングするResidual Memory(ResMem)ブロックが設計されている。
さらに、ResMemブロックは音声属性度予測(VADP)ブロックで拡張され、音声属性を対応する記述子と整列させ、音声属性の非定量的な記述によって引き起こされるテキストプロンプトの正確性に対処する。
また、オープンソースのVCTK-RVAデータセットを構築し、異なる話者間の音声特徴の相違を詳細に記述する手動アノテーションの道のりを導いた。
客観的および主観的指標の両面から,提案手法の有効性と一般化性を示す。
データセットとオーディオサンプルはWebサイトから入手できる。
関連論文リスト
- FluentEditor+: Text-based Speech Editing by Modeling Local Hierarchical Acoustic Smoothness and Global Prosody Consistency [40.95700389032375]
テキストベースの音声編集(TSE)では、ユーザーは対応するテキストを編集し、カット、コピー、ペーストなどの操作を実行することで音声を修正できる。
現在のTSE技術は、生成した音声と、編集されたセグメント内の参照ターゲットとの相違を最小化することに焦点を当てている。
音声の未修正部分と 編集部分のシームレスな統合は 難しいままです
本稿ではこれらの制限を克服するために設計された新しいアプローチであるFluentEditor$tiny +$を紹介する。
論文 参考訳(メタデータ) (2024-09-28T10:18:35Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - PromptTTS 2: Describing and Generating Voices with Text Prompt [102.93668747303975]
音声はテキストよりも多くの情報を伝達し、同じ単語を様々な声で発声して多様な情報を伝えることができる。
従来のTTS(text-to-speech)手法は、音声の可変性に対する音声プロンプト(参照音声)に依存している。
本稿では,テキストプロンプトで捉えない音声の可変性情報を提供するために,変分ネットワークを用いてこれらの課題に対処するPromptTTS 2を提案する。
論文 参考訳(メタデータ) (2023-09-05T14:45:27Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - TGAVC: Improving Autoencoder Voice Conversion with Text-Guided and
Adversarial Training [32.35100329067037]
新しい音声変換フレームワーク $boldsymbol T$ext $boldsymbol G$uided $boldsymbol A$utoVC(TGAVC)
音声から抽出した推定内容の話者識別情報を除去するために、逆トレーニングを適用する。
AIShell-3データセットの実験により、提案モデルは変換された音声の自然性や類似性の観点からAutoVCより優れていることが示された。
論文 参考訳(メタデータ) (2022-08-08T10:33:36Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Context-Aware Prosody Correction for Text-Based Speech Editing [28.459695630420832]
現在のシステムの主な欠点は、編集された地域の周りの韻律のミスマッチのために、編集された録音がしばしば不自然に聞こえることです。
音声のより自然な音声編集のための新しい文脈認識手法を提案する。
論文 参考訳(メタデータ) (2021-02-16T18:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。