論文の概要: Can Emotion Fool Anti-spoofing?
- arxiv url: http://arxiv.org/abs/2505.23962v1
- Date: Thu, 29 May 2025 19:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.641553
- Title: Can Emotion Fool Anti-spoofing?
- Title(参考訳): Emotion Fool anti-spoofing は有効か?
- Authors: Aurosweta Mahapatra, Ismail Rasim Ulgen, Abinay Reddy Naini, Carlos Busso, Berrak Sisman,
- Abstract要約: 感情的テキスト音声サンプルのコーパスであるEmoSpoof-TTSを紹介する。
分析の結果,既存のアンチ・スプーフィングモデルでは感情的合成音声に苦慮していることが明らかとなった。
本稿では,感情認識ゲーティングネットワークを用いた感情特化モデルのゲートアンサンブルであるGEMを提案する。
- 参考スコア(独自算出の注目度): 24.752708821003957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional anti-spoofing focuses on models and datasets built on synthetic speech with mostly neutral state, neglecting diverse emotional variations. As a result, their robustness against high-quality, emotionally expressive synthetic speech is uncertain. We address this by introducing EmoSpoof-TTS, a corpus of emotional text-to-speech samples. Our analysis shows existing anti-spoofing models struggle with emotional synthetic speech, exposing risks of emotion-targeted attacks. Even trained on emotional data, the models underperform due to limited focus on emotional aspect and show performance disparities across emotions. This highlights the need for emotion-focused anti-spoofing paradigm in both dataset and methodology. We propose GEM, a gated ensemble of emotion-specialized models with a speech emotion recognition gating network. GEM performs effectively across all emotions and neutral state, improving defenses against spoofing attacks. We release the EmoSpoof-TTS Dataset: https://emospoof-tts.github.io/Dataset/
- Abstract(参考訳): 従来のアンチ・スプーフィングは、主に中立な状態の合成音声の上に構築されたモデルとデータセットに焦点を当てており、多様な感情的なバリエーションを無視している。
その結果、高品質で感情的に表現力のある合成音声に対する頑健性は不確かである。
我々は感情的テキスト音声サンプルのコーパスであるEmoSpoof-TTSを導入することでこの問題に対処する。
分析の結果、既存のアンチ・スプーフィングモデルでは感情的合成音声に苦慮し、感情を標的とした攻撃のリスクが露呈した。
感情データに基づいてトレーニングしても、感情的な側面に限定的に焦点を合わせ、感情間のパフォーマンス格差を示すため、モデルのパフォーマンスは低下する。
これは、データセットと方法論の両方において、感情に焦点を当てたアンチスプーフィングパラダイムの必要性を強調します。
本稿では,感情認識ゲーティングネットワークを用いた感情特化モデルのゲートアンサンブルであるGEMを提案する。
GEMはすべての感情と中立状態に対して効果的に機能し、密封攻撃に対する防御を改善している。
EmoSpoof-TTS Dataset: https://emospoof-tts.github.io/Dataset/をリリースします。
関連論文リスト
- EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting [48.56693150755667]
EmoVoiceは、大きな言語モデル(LLM)を利用して、きめ細かい自然言語の感情制御を可能にする、感情制御可能な新しいTSモデルである。
EmoVoice-DBは、表現力のある音声と自然言語記述によるきめ細かい感情ラベルを特徴とする、高品質な40時間感情データセットである。
論文 参考訳(メタデータ) (2025-04-17T11:50:04Z) - EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech [34.03787613163788]
EmoSphere-TTSは球面感情ベクトルを用いて表現的感情音声を合成し、合成音声の感情的スタイルと強度を制御する。
マルチアスペクト特性を反映して生成した音声の品質を向上させるための2つの条件付き対向ネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T01:40:29Z) - Language Models (Mostly) Do Not Consider Emotion Triggers When Predicting Emotion [87.18073195745914]
人間の感情が感情の予測において有意であると考えられる特徴とどのように相関するかを検討する。
EmoTriggerを用いて、感情のトリガーを識別する大規模言語モデルの能力を評価する。
分析の結果、感情のトリガーは感情予測モデルにとって健全な特徴ではなく、様々な特徴と感情検出のタスクの間に複雑な相互作用があることが判明した。
論文 参考訳(メタデータ) (2023-11-16T06:20:13Z) - Emotion-Aware Prosodic Phrasing for Expressive Text-to-Speech [47.02518401347879]
発話の感情的手がかりを正確に抽出し,適切なフレーズブレークを予測するために,感情認識型韻律表現モデル「textitEmoPP」を提案する。
まずESDデータセットの客観的な観察を行い、感情と韻律的フレーズの強い相関を検証した。
次に、感情表現性の観点から、EmoPPがすべてのベースラインと顕著なパフォーマンスを上回っていることを示す客観的および主観的評価を実現する。
論文 参考訳(メタデータ) (2023-09-21T01:51:10Z) - Speech Emotion Diarization: Which Emotion Appears When? [11.84193589275529]
音声感情のきめ細かい性質を反映した音声感情ダイアリゼーション(SED)を提案する。
話者ダイアリゼーションが「誰がいつ話すのか?」という問いに答えるのと同じように、音声感情ダイアリゼーションは「いつ感情が現れるのか?」という問いに答える。
論文 参考訳(メタデータ) (2023-06-22T15:47:36Z) - Learning Emotional Representations from Imbalanced Speech Data for
Speech Emotion Recognition and Emotional Text-to-Speech [1.4986031916712106]
音声感情表現は、音声感情認識(SER)および感情テキスト音声(TTS)タスクにおいて重要な役割を果たす。
モデルは大多数の中立層に過度に適合し、堅牢で効果的な感情表現を生成できない。
我々は、モデルのトレーニングに拡張アプローチを使用し、不均衡なデータセットから効果的で一般化可能な感情表現を抽出できるようにする。
論文 参考訳(メタデータ) (2023-06-09T07:04:56Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。