論文の概要: The False Resonance: A Critical Examination of Emotion Embedding Similarity for Speech Generation Evaluation
- arxiv url: http://arxiv.org/abs/2604.26347v1
- Date: Wed, 29 Apr 2026 06:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.280913
- Title: The False Resonance: A Critical Examination of Emotion Embedding Similarity for Speech Generation Evaluation
- Title(参考訳): False Resonance:音声生成評価のための感情埋め込み類似性の検討
- Authors: Yun-Shao Tsai, Yi-Cheng Lin, Huang-Cheng Chou, Tzu-Wen Hsu, Yun-Man Hsu, Chun Wei Chen, Shrikanth Narayanan, Hung-yi Lee,
- Abstract要約: 感情的表現力の客観的指標は、特に表現的合成と音声変換において、音声生成に不可欠である。
言語や話者の変動にもかかわらず感情的な手がかりを捉えていると仮定して、感情2vecのようなエンコーダからの埋め込みのコサイン類似性を計算する。
分類精度が高いにもかかわらず、これらの潜伏空間はゼロショット類似性評価には適さない。
- 参考スコア(独自算出の注目度): 66.28943752785906
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Objective metrics for emotional expressiveness are vital for speech generation, particularly in expressive synthesis and voice conversion requiring emotional prosody transfer. To quantify this, the field widely relies on emotion similarity between reference and generated samples. This approach computes cosine similarity of embeddings from encoders like emotion2vec, assuming they capture affective cues despite linguistic and speaker variations. We challenge this assumption through controlled adversarial tasks and human alignment tests. Despite high classification accuracy, these latent spaces are unsuitable for zero-shot similarity evaluation. Representational limitations cause linguistic and speaker interference to overshadow emotional features, degrading discriminative ability. Consequently, the metric misaligns with human perception. This acoustic vulnerability reveals it rewards acoustic mimicry over genuine emotional synthesis.
- Abstract(参考訳): 感情的表現力の客観的指標は、特に感情的韻律伝達を必要とする表現的合成と音声変換において、音声生成に不可欠である。
これを定量化するために、フィールドは参照と生成されたサンプル間の感情類似性に広く依存している。
このアプローチは、言語や話者のバリエーションにもかかわらず感情的な手がかりを捉えていると仮定して、感情2vecのようなエンコーダからの埋め込みのコサイン類似性を計算する。
制御された敵タスクと人間のアライメントテストにより、この仮定に挑戦する。
分類精度が高いにもかかわらず、これらの潜伏空間はゼロショット類似性評価には適さない。
表現の制限は言語的および話者の干渉を、感情的特徴を覆い、差別能力を低下させる。
その結果、計量は人間の知覚と不一致となる。
この音響的脆弱性は、真の感情合成よりも音響的模倣に報いる。
関連論文リスト
- On the Emotion Understanding of Synthesized Speech [63.13411068766772]
感情は音声対話における中核的なパラ言語的特徴である。
現在の音声感情認識(SER)モデルは、合成音声に一般化できない。
生成音声言語モデル(SLM)は、パラ言語的手がかりを無視しながら、テキスト意味論から感情を推測する傾向がある。
論文 参考訳(メタデータ) (2026-03-17T13:11:14Z) - Semantic Differentiation in Speech Emotion Recognition: Insights from Descriptive and Expressive Speech Roles [4.516156697420418]
音声感情認識(SER)は、人間とコンピュータの相互作用を改善するために不可欠である。
音声の文脈的内容を表す記述的意味論と、話者の感情状態を反映する表現的意味論とを区別する。
我々の発見は、人間とAIのインタラクションにおけるSERの応用を知らせ、よりコンテキスト対応のAIシステムへの道を開いた。
論文 参考訳(メタデータ) (2025-10-03T14:42:35Z) - DiEmo-TTS: Disentangled Emotion Representations via Self-Supervised Distillation for Cross-Speaker Emotion Transfer in Text-to-Speech [49.128847336227636]
音声合成における話者間感情伝達は、正確な感情モデリングのための話者非依存感情埋め込みの抽出に依存する。
本研究では,感情情報の損失を最小限に抑え,話者のアイデンティティを保持する自己教師型蒸留法であるDiEmo-TTSを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:47:39Z) - Improving speaker verification robustness with synthetic emotional utterances [14.63248006004598]
話者検証(SV)システムは、特定の話者から発する音声サンプルが発するかどうかを確認するための認証サービスを提供する。
従来のモデルでは、感情的な発話を扱う場合、中立なモデルに比べて高いエラー率を示す。
この問題は、ラベル付き感情音声データの利用が限られていることに起因している。
本稿では,CycleGANフレームワークを用いたデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-11-30T02:18:26Z) - AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect
Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。
本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。
それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-16T06:28:29Z) - In-the-wild Speech Emotion Conversion Using Disentangled Self-Supervised
Representations and Neural Vocoder-based Resynthesis [15.16865739526702]
本稿では,自己教師ネットワークを用いて発話の語彙的,話者的,感情的な内容を切り離す手法を提案する。
次に、HiFiGANボコーダを用いて、不整合表現をターゲット感情の音声信号に再合成する。
その結果,提案手法は入力音声の感情内容に適度に適応し,対象感情に対して自然な音声を合成できることがわかった。
論文 参考訳(メタデータ) (2023-06-02T21:02:51Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。