論文の概要: Bridging the prosody GAP: Genetic Algorithm with People to efficiently
sample emotional prosody
- arxiv url: http://arxiv.org/abs/2205.04820v1
- Date: Tue, 10 May 2022 11:45:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:51:37.648768
- Title: Bridging the prosody GAP: Genetic Algorithm with People to efficiently
sample emotional prosody
- Title(参考訳): プロソディGAPのブリッジ: 感情的プロソディを効率的にサンプリングするための遺伝的アルゴリズム
- Authors: Pol van Rijn and Harin Lee and Nori Jacoby
- Abstract要約: GAP(Genetic Algorithm with People)は、人間の意思決定と生産を遺伝的アルゴリズムに統合する。
我々は,GAPが感情音声空間から効率的にサンプリングし,幅広い感情を捕捉できることを実証した。
GAPは言語に依存しず、大規模なクラウドソーシングをサポートしており、将来の大規模クロスカルチャー研究をサポートすることができる。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The human voice effectively communicates a range of emotions with nuanced
variations in acoustics. Existing emotional speech corpora are limited in that
they are either (a) highly curated to induce specific emotions with predefined
categories that may not capture the full extent of emotional experiences, or
(b) entangled in their semantic and prosodic cues, limiting the ability to
study these cues separately. To overcome this challenge, we propose a new
approach called 'Genetic Algorithm with People' (GAP), which integrates human
decision and production into a genetic algorithm. In our design, we allow
creators and raters to jointly optimize the emotional prosody over generations.
We demonstrate that GAP can efficiently sample from the emotional speech space
and capture a broad range of emotions, and show comparable results to
state-of-the-art emotional speech corpora. GAP is language-independent and
supports large crowd-sourcing, thus can support future large-scale
cross-cultural research.
- Abstract(参考訳): 人間の声は、音響の微妙な変化と様々な感情を効果的に伝達する。
既存の感情音声コーパスはそれらがどちらであるかに制限される
(a)感情経験の完全な範囲を捉えないカテゴリーで特定の感情を誘発する高度にキュレートされた、または
b) 意味的および韻律的手がかりに絡み合い、これらの手がかりを個別に研究する能力を制限する。
この課題を克服するために、人間の意思決定と生産を遺伝的アルゴリズムに統合する「GAP(Genetic Algorithm with People)」という新しいアプローチを提案する。
われわれのデザインでは、クリエイターとラッカーが、世代を超えて感情的な韻律を共同で最適化できる。
我々は、GAPが感情音声空間から効率的にサンプリングし、幅広い感情を捉え、最先端の感情音声コーパスと同等の結果を示すことを示した。
GAPは言語に依存しず、大規模なクラウドソーシングをサポートしており、将来の大規模クロスカルチャー研究をサポートすることができる。
関連論文リスト
- EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector [26.656512860918262]
EmoSphere++は感情制御可能なゼロショットTSモデルで、感情のスタイルや強度をコントロールでき、自然な人間の音声に似ています。
人間のアノテーションを使わずに感情のスタイルや強度をモデル化する,感情適応型球面ベクトルを新たに導入する。
条件付きフローマッチングに基づくデコーダを用いて,数ステップのサンプリングで高品質で表現力のある感情的TSを実現する。
論文 参考訳(メタデータ) (2024-11-04T21:33:56Z) - ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners through Reasoning Chains [61.50113532215864]
CEE(Causal Emotion Entailment)は、ターゲット発話で表現される感情を刺激する会話における因果発話を特定することを目的としている。
CEEにおける現在の研究は、主に会話のセマンティックな相互作用と感情的な相互作用をモデル化することに焦点を当てている。
本研究では,会話中の感情表現から刺激を推測するために,ステップバイステップの推論手法である感情・因果関係(ECR-Chain)を導入する。
論文 参考訳(メタデータ) (2024-05-17T15:45:08Z) - Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought [50.13429055093534]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。
本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:42:10Z) - AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect
Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。
本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。
それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-16T06:28:29Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - HICEM: A High-Coverage Emotion Model for Artificial Emotional
Intelligence [9.153146173929935]
次世代の人工知能(AEI)は、より深く、より有意義な人間と機械の相互作用に対するユーザの欲求に対処するために、中心的な段階を採っている。
心理学における歴史的焦点である感情の理論とは異なり、感情モデルは記述的な道具である。
この研究は、社会ロボティクス、人間と機械の相互作用、メンタルヘルスケア、計算心理学に幅広い影響を及ぼす。
論文 参考訳(メタデータ) (2022-06-15T15:21:30Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z) - Exploring emotional prototypes in a high dimensional TTS latent space [3.4404376509754506]
訓練されたGSTタコトロンモデルを用いて韻律潜在空間を探索し、感情的韻律のプロトタイプを探索する。
モデルの潜在空間の特定の領域が特定の感情に確実に関連していることを示す。
論文 参考訳(メタデータ) (2021-05-05T06:49:21Z) - SpanEmo: Casting Multi-label Emotion Classification as Span-prediction [15.41237087996244]
マルチラベル感情分類をスパンプレディションとした新しいモデル「SpanEmo」を提案する。
入力文中の複数の共存感情をモデル化することに焦点を当てた損失関数を導入する。
SemEval2018マルチラベル感情データを3つの言語セットで実験した結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-01-25T12:11:04Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。