論文の概要: Textless Speech Emotion Conversion using Decomposed and Discrete
Representations
- arxiv url: http://arxiv.org/abs/2111.07402v1
- Date: Sun, 14 Nov 2021 18:16:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 13:36:22.260627
- Title: Textless Speech Emotion Conversion using Decomposed and Discrete
Representations
- Title(参考訳): 分解表現と離散表現を用いた無文音声感情変換
- Authors: Felix Kreuk, Adam Polyak, Jade Copet, Eugene Kharitonov, Tu-Anh
Nguyen, Morgane Rivi\`ere, Wei-Ning Hsu, Abdelrahman Mohamed, Emmanuel
Dupoux, Yossi Adi
- Abstract要約: 我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
- 参考スコア(独自算出の注目度): 49.55101900501656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion conversion is the task of modifying the perceived emotion of a
speech utterance while preserving the lexical content and speaker identity. In
this study, we cast the problem of emotion conversion as a spoken language
translation task. We decompose speech into discrete and disentangled learned
representations, consisting of content units, F0, speaker, and emotion. First,
we modify the speech content by translating the content units to a target
emotion, and then predict the prosodic features based on these units. Finally,
the speech waveform is generated by feeding the predicted representations into
a neural vocoder. Such a paradigm allows us to go beyond spectral and
parametric changes of the signal, and model non-verbal vocalizations, such as
laughter insertion, yawning removal, etc. We demonstrate objectively and
subjectively that the proposed method is superior to the baselines in terms of
perceived emotion and audio quality. We rigorously evaluate all components of
such a complex system and conclude with an extensive model analysis and
ablation study to better emphasize the architectural choices, strengths and
weaknesses of the proposed method. Samples and code will be publicly available
under the following link: https://speechbot.github.io/emotion.
- Abstract(参考訳): 音声の感情変換は、語彙の内容と話者のアイデンティティを保ちながら、発話の知覚的な感情を変更するタスクである。
本研究では,音声翻訳課題として感情変換の問題を提起した。
音声を,コンテンツ単位,f0,話者,感情からなる,離散的かつ不連続な学習表現に分解する。
まず、コンテンツ単位を対象感情に翻訳し、これらの単位に基づいて韻律的特徴を予測することにより、音声コンテンツを修正する。
最後に、予測された表現をニューラルネットワークボコーダに供給して音声波形を生成する。
このようなパラダイムにより、信号のスペクトルおよびパラメトリック変化を超えて、笑い挿入やあくび除去などの非言語発声をモデル化することができる。
本研究では,提案手法が感情や音質の知覚において,ベースラインよりも優れていることを客観的かつ主観的に示す。
このような複雑なシステムの全ての構成要素を厳密に評価し,提案手法のアーキテクチャ的選択,長所,短所をより強調するために,広範なモデル解析およびアブレーション研究を行った。
サンプルとコードは以下のリンクで公開されている。
関連論文リスト
- AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect
Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。
本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。
それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-16T06:28:29Z) - Learning Multilingual Expressive Speech Representation for Prosody
Prediction without Parallel Data [0.0]
本稿では,個別音声単位のレベルで音声から音声への感情翻訳を行う手法を提案する。
この埋め込みは、対象言語における音声単位のピッチと持続時間を予測するのに有効であることを示す。
我々は、英語とフランス語の音声信号に対する我々のアプローチを評価し、ベースライン法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-29T08:06:54Z) - In-the-wild Speech Emotion Conversion Using Disentangled Self-Supervised
Representations and Neural Vocoder-based Resynthesis [15.16865739526702]
本稿では,自己教師ネットワークを用いて発話の語彙的,話者的,感情的な内容を切り離す手法を提案する。
次に、HiFiGANボコーダを用いて、不整合表現をターゲット感情の音声信号に再合成する。
その結果,提案手法は入力音声の感情内容に適度に適応し,対象感情に対して自然な音声を合成できることがわかった。
論文 参考訳(メタデータ) (2023-06-02T21:02:51Z) - SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic
Speech Processing [17.128885611538486]
パラ言語音声処理は、感情分析や神経認知障害分析などの多くの問題に対処する上で重要である。
音声の特徴を考察し、パラ言語音声処理のための一般的な構造ベースフレームワークであるSpeechFormer++を提案する。
SpeechFormer++は、音声感情認識(IEMOCAP & MELD)、うつ病分類(DAIC-WOZ)、アルツハイマー病検出(Pitt)タスクに基づいて評価される。
論文 参考訳(メタデータ) (2023-02-27T11:48:54Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - VAW-GAN for Disentanglement and Recomposition of Emotional Elements in
Speech [91.92456020841438]
変分自己符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)による音声の感情要素のアンタングル化と再分解について検討する。
本稿では,2つのVAW-GANパイプライン,1つはスペクトル変換,もう1つは韻律変換を含む話者依存型ECVフレームワークを提案する。
提案手法の有効性を客観評価と主観評価の両方で検証した。
論文 参考訳(メタデータ) (2020-11-03T08:49:33Z) - Converting Anyone's Emotion: Towards Speaker-Independent Emotional Voice
Conversion [83.14445041096523]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、ある状態から別の状態へ音声の感情を変換することを目的としている。
パラレルデータを必要とせずに、誰の感情も変換できる話者非依存の感情音声変換フレームワークを提案する。
実験の結果,提案した話者非依存のフレームワークは,目に見える話者と目に見えない話者の双方に対して,競争的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-05-13T13:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。