The False Resonance: A Critical Examination of Emotion Embedding Similarity for Speech Generation Evaluation
Abstractの概要
本論文は、生成音声の感情類似性評価において、音声感情埋め込み(特にemotion2vec)のコサイン類似度が妥当な客観的指標であるかを批判的に検証している。6つの音声コーパスと複数のエンコーダを用いた制御された敵対的トリプレットタスク、次元感度テスト、および人間との整合性評価を通じて、これらの埋め込み空間が話者アイデンティティと言語内容によって強く交絡していることを実証している。潜在空間の異方性に対処するために平均中心化が適用されるが、根本的な問題は解決されない。本研究は、広く使用されているEMO-SIM型指標が真の感情転写ではなく音響的類似性を報酬とするため、ゼロショット音声生成評価には信頼性が低いと結論づけている。
新規性
本論文の主な新規性は、音声合成システムそのものではなく、感情類似性指標自体を直接的かつ体系的に評価している点にある。4つの制御されたシナリオにわたる敵対的トリプレット設計、連続的なバレンス/アラウザル感度テスト、人間の選好との整合性評価、および層別プロービングを組み合わせることで、強力な感情分類性能にもかかわらず、一般的な感情埋め込みコサイン類似度が失敗する理由を明らかにしている。
成果
カテゴリカルな敵対的設定において、emotion2vecの精度はCREMA-Dの言語的妨害条件下で3.38%まで低下し、50%のチャンスレベルを大きく下回る。次元評価では、シフト識別性はランダムチャンス付近にとどまり、トレンド単調性(スピアマンのρ)は全データセットおよびエンコーダにわたってゼロ付近を維持している。人間との整合性テストでは、最良のemotion2vec+変種でも精度は52.25%〜65.00%にとどまり、層別分析ではL0の58.0%からL7の45.0%へと知覚的整合性が劣化することが示されている。
論文の注目点
- 感情埋め込みのコサイン類似度は話者アイデンティティと言語内容によって強く交絡しており、ゼロショット設定で音響特徴が異なる場合に正しい感情マッチングを積極的にペナルティする原因となっている。
- 平均中心化は潜在空間の異方性に対処するが、カテゴリカルなロバスト性の弱さや次元感度の低さは解決されず、シフト識別性とトレンド単調性はデータセット全体でチャンスレベル付近にとどまっている。
- 人間の判断との整合性は限定的であり(ファインチューニング変種で52.25%〜65.00%の精度)、emotion2vecのより深いトランスフォーマー層は知覚的整合性を改善するどころかさらに劣化させている。