論文の概要: Re-ENACT: Reinforcement Learning for Emotional Speech Generation using Actor-Critic Strategy
- arxiv url: http://arxiv.org/abs/2408.01892v1
- Date: Sun, 4 Aug 2024 00:47:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 18:01:12.241059
- Title: Re-ENACT: Reinforcement Learning for Emotional Speech Generation using Actor-Critic Strategy
- Title(参考訳): Re-ENACT:アクター・クリティカル戦略を用いた感情音声生成のための強化学習
- Authors: Ravi Shankar, Archana Venkataraman,
- Abstract要約: 我々は、ベルヌーイ確率変数の集合の変動後部を生成するためにニューラルネットワークを訓練する。
対象感情のスコアを高めるために,マスク付きセグメントの韻律的特徴を変化させる。
実験により、この枠組みは、特定の発話のターゲットに対する知覚的感情を変化させることを示した。
- 参考スコア(独自算出の注目度): 8.527959937101826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose the first method to modify the prosodic features of a given speech signal using actor-critic reinforcement learning strategy. Our approach uses a Bayesian framework to identify contiguous segments of importance that links segments of the given utterances to perception of emotions in humans. We train a neural network to produce the variational posterior of a collection of Bernoulli random variables; our model applies a Markov prior on it to ensure continuity. A sample from this distribution is used for downstream emotion prediction. Further, we train the neural network to predict a soft assignment over emotion categories as the target variable. In the next step, we modify the prosodic features (pitch, intensity, and rhythm) of the masked segment to increase the score of target emotion. We employ an actor-critic reinforcement learning to train the prosody modifier by discretizing the space of modifications. Further, it provides a simple solution to the problem of gradient computation through WSOLA operation for rhythm manipulation. Our experiments demonstrate that this framework changes the perceived emotion of a given speech utterance to the target. Further, we show that our unified technique is on par with state-of-the-art emotion conversion models from supervised and unsupervised domains that require pairwise training.
- Abstract(参考訳): 本稿では,アクター・アクターの強化学習戦略を用いて,与えられた音声信号の韻律的特徴を初めて修正する手法を提案する。
我々の手法はベイズ的枠組みを用いて、与えられた発話のセグメントと人間の感情の知覚を結びつける重要部分を特定する。
我々はニューラルネットワークをトレーニングし、ベルヌーイ確率変数の集合の変動後部を生成する。
この分布からのサンプルは下流の感情予測に使用される。
さらに、ニューラルネットワークをトレーニングし、ターゲット変数として感情カテゴリーに対するソフトな割り当てを予測する。
次のステップでは、マスクされたセグメントの韻律的特徴(ピッチ、強度、リズム)を修正し、ターゲット感情のスコアを増加させる。
我々は,修正の空間を識別し,韻律変調器の訓練にアクター・クリティック・リテンション・ラーニングを用いた。
さらに、リズム操作のためのWSOLA演算による勾配計算の簡単な解を提供する。
実験により、この枠組みは、特定の発話のターゲットに対する知覚的感情を変化させることを示した。
さらに、我々の統合手法は、ペアの訓練を必要とする教師なし領域や教師なし領域からの最先端の感情変換モデルと同等であることを示す。
関連論文リスト
- Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis [55.45253486141108]
RAG-Gestureは、意味的に豊かなジェスチャーを生成するための拡散に基づくジェスチャー生成手法である。
我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから動きを検索する。
提案手法では,各検索挿入が生成したシーケンスに対して与える影響量を調整可能なガイダンス制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:59:46Z) - Boosting Continuous Emotion Recognition with Self-Pretraining using Masked Autoencoders, Temporal Convolutional Networks, and Transformers [3.951847822557829]
本研究では,Valence-Arousal (VA) Estimation Challenge, Expression (Expr) Classification Challenge, Action Unit (AU) Detection Challengeに取り組む。
本研究は,継続的な感情認識を改善するための新しいアプローチを提唱する。
我々は、顔データセット上でMasked Autoencoders(MAE)を事前トレーニングし、その後、式(Expr)ラベルを付加したaff-wild2データセットを微調整することで、これを実現する。
論文 参考訳(メタデータ) (2024-03-18T03:28:01Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Co-Speech Gesture Detection through Multi-Phase Sequence Labeling [3.924524252255593]
本稿では,タスクをマルチフェーズシーケンスラベリング問題として再編成する新しいフレームワークを提案する。
本稿では,タスク指向の対面対話における多様な音声ジェスチャーのデータセットについて検討する。
論文 参考訳(メタデータ) (2023-08-21T12:27:18Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - GANtron: Emotional Speech Synthesis with Generative Adversarial Networks [0.0]
提案するテキスト音声合成モデルでは,推定音声を所望の感情で調整することができる。
我々は,GAN(Generative Adversarial Networks)とアテンション機構を用いたシーケンス・ツー・シーケンス・モデルを用いた。
論文 参考訳(メタデータ) (2021-10-06T10:44:30Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Emotion Transfer Using Vector-Valued Infinite Task Learning [2.588412672658578]
本稿では,無限タスク学習とベクトル値再生カーネルHilbert空間に基づく新しいスタイル転送フレームワークを提案する。
我々は、顔のイメージを異なるターゲットの感情に変換することを目標とする感情伝達のアイデアをインスタンス化する。
論文 参考訳(メタデータ) (2021-02-09T19:05:56Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。