論文の概要: Controllable Neural Prosody Synthesis
- arxiv url: http://arxiv.org/abs/2008.03388v2
- Date: Tue, 11 Aug 2020 19:34:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 02:04:50.958342
- Title: Controllable Neural Prosody Synthesis
- Title(参考訳): 制御可能なニューラルプロソディ合成
- Authors: Max Morrison, Zeyu Jin, Justin Salamon, Nicholas J. Bryan, Gautham J.
Mysore
- Abstract要約: 音声合成のためのユーザ制御型コンテキスト認識型ニューラル韻律生成器を開発した。
本モデルでは,ユーザが特定の時間フレームに対する韻律制約を入力し,入力テキストと文脈韻律から残りの時間フレームを生成する。
合成音声の全体的な自然性を犠牲にすることなく,ユーザ制御を韻律生成モデルに組み込むことが可能であることを示す。
- 参考スコア(独自算出の注目度): 38.437243265743234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech synthesis has recently seen significant improvements in fidelity,
driven by the advent of neural vocoders and neural prosody generators. However,
these systems lack intuitive user controls over prosody, making them unable to
rectify prosody errors (e.g., misplaced emphases and contextually inappropriate
emotions) or generate prosodies with diverse speaker excitement levels and
emotions. We address these limitations with a user-controllable, context-aware
neural prosody generator. Given a real or synthesized speech recording, our
model allows a user to input prosody constraints for certain time frames and
generates the remaining time frames from input text and contextual prosody. We
also propose a pitch-shifting neural vocoder to modify input speech to match
the synthesized prosody. Through objective and subjective evaluations we show
that we can successfully incorporate user control into our prosody generation
model without sacrificing the overall naturalness of the synthesized speech.
- Abstract(参考訳): 音声合成は、ニューラル・ヴォコーダとニューラル・プロソディ・ジェネレータの出現によって、フィデリティが大幅に改善された。
しかし、これらのシステムはプロソディに対する直感的なユーザーコントロールを欠いているため、プロソディの誤り(例えば、不適切な環境や不適切な感情)を訂正したり、様々な話者の興奮レベルや感情でプロソディを生成することができない。
ユーザ制御可能なコンテキスト認識型ニューラルプロソディジェネレータによって,これらの制限に対処する。
実際の音声記録や合成音声記録が与えられた場合、ユーザが特定の時間フレームに対する韻律制約を入力でき、入力テキストと文脈韻律から残りの時間枠を生成することができる。
また,合成韻律に適合する入力音声を修飾するピッチシフト型ニューラルボコーダを提案する。
主観的および主観的評価により,合成音声の全体的な自然性を犠牲にすることなく,ユーザ制御を韻律生成モデルに組み込むことが可能であることを示す。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - Humane Speech Synthesis through Zero-Shot Emotion and Disfluency Generation [0.6964027823688135]
現代の会話システムは、人間の相互作用の感情的な深さと非流動的な特徴を欠いている。
この欠点に対処するため、我々は革新的な音声合成パイプラインを設計した。
このフレームワーク内では、最先端の言語モデルが、ゼロショット設定で人間のような感情と分散の両方を導入する。
論文 参考訳(メタデータ) (2024-03-31T00:38:02Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Controllable Generation of Artificial Speaker Embeddings through
Discovery of Principal Directions [29.03308434639149]
本研究では,実際の人間にリンクできない人工話者埋め込みを生成する手法を提案する。
制御可能な埋め込みは、訓練中に実際の人間の埋め込みを条件とした音声合成システムに供給することができる。
論文 参考訳(メタデータ) (2023-10-26T15:54:12Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Zero-Shot Long-Form Voice Cloning with Dynamic Convolution Attention [0.0]
本稿では,数秒間の参照音声からターゲット音声を再生可能な,注意に基づく音声合成システムを提案する。
長期発話への一般化は、ダイナミック・コンボリューション・アテンション(Dynamic Convolution Attention)と呼ばれるエネルギーベースのアテンション機構を用いて実現される。
音声の自然性、話者の類似性、アライメントの整合性、長い発話を合成する能力などの観点から、音声クローニングシステムの実装を比較した。
論文 参考訳(メタデータ) (2022-01-25T15:06:07Z) - Synthesizing Speech from Intracranial Depth Electrodes using an
Encoder-Decoder Framework [1.623136488969658]
音声神経補綴は、変形性関節症や変形性関節症患者のコミュニケーションを可能にする可能性がある。
近年の進歩は、皮質表面に置かれた電磁気格子から高品質なテキストデコーディングと音声合成を実証している。
論文 参考訳(メタデータ) (2021-11-02T09:43:21Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - Controllable neural text-to-speech synthesis using intuitive prosodic
features [3.709803838880226]
音響音声の特徴に基づくシーケンス・ツー・シーケンスニューラルネットワークを訓練し、直感的かつ有意義な次元を持つ潜在韻律空間を学習する。
実験により, 音程, ピッチ範囲, 持続時間, エネルギー, スペクトル傾きのモデルが各韻律次元を効果的に制御し, 多様な発話スタイルを生成できることが示唆された。
論文 参考訳(メタデータ) (2020-09-14T22:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。