論文の概要: HuLA: Prosody-Aware Anti-Spoofing with Multi-Task Learning for Expressive and Emotional Synthetic Speech
- arxiv url: http://arxiv.org/abs/2509.21676v1
- Date: Thu, 25 Sep 2025 22:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.06831
- Title: HuLA: Prosody-Aware Anti-Spoofing with Multi-Task Learning for Expressive and Emotional Synthetic Speech
- Title(参考訳): HuLA:表現的・感情的合成音声のためのマルチタスク学習による韻律を考慮したアンチ・スプーフィング
- Authors: Aurosweta Mahapatra, Ismail Rasim Ulgen, Berrak Sisman,
- Abstract要約: 本稿では,スプーフ検出のための2段階の韻律対応マルチタスク学習フレームワークであるHuLAを提案する。
ステージ1では、F0予測と音声・無声分類の補助的タスクを用いて、自己教師型学習バックボーンを実音声で訓練する。
ステージ2では、実データと合成データの両方において、スプーフ検出と韻律タスクに共同最適化されている。
- 参考スコア(独自算出の注目度): 7.515445362219416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current anti-spoofing systems remain vulnerable to expressive and emotional synthetic speech, since they rarely leverage prosody as a discriminative cue. Prosody is central to human expressiveness and emotion, and humans instinctively use prosodic cues such as F0 patterns and voiced/unvoiced structure to distinguish natural from synthetic speech. In this paper, we propose HuLA, a two-stage prosody-aware multi-task learning framework for spoof detection. In Stage 1, a self-supervised learning (SSL) backbone is trained on real speech with auxiliary tasks of F0 prediction and voiced/unvoiced classification, enhancing its ability to capture natural prosodic variation similar to human perceptual learning. In Stage 2, the model is jointly optimized for spoof detection and prosody tasks on both real and synthetic data, leveraging prosodic awareness to detect mismatches between natural and expressive synthetic speech. Experiments show that HuLA consistently outperforms strong baselines on challenging out-of-domain dataset, including expressive, emotional, and cross-lingual attacks. These results demonstrate that explicit prosodic supervision, combined with SSL embeddings, substantially improves robustness against advanced synthetic speech attacks.
- Abstract(参考訳): 現在のアンチ・スプーフィング・システムは、表現的・感情的な合成音声に弱いままであり、プロソディを差別的キューとして利用することは滅多にない。
韻律は人間の表現力や感情の中心であり、人間はF0パターンや音声・無声構造などの韻律的手がかりを本能的に用いて合成音声と自然を区別する。
本稿では,スプーフ検出のための2段階の韻律対応マルチタスク学習フレームワークであるHuLAを提案する。
ステージ1では、自己教師付き学習(SSL)のバックボーンがF0予測と音声・無声分類の補助的なタスクで実際の音声で訓練され、人間の知覚学習と同様の自然な韻律変化を捉える能力を高める。
ステージ2では、モデルは実データと合成データの両方のスプーフ検出と韻律タスクに共同最適化され、韻律的認識を利用して自然な合成音声と表現的な合成音声のミスマッチを検出する。
実験によると、HuLAは表現力、感情、言語間攻撃など、ドメイン外のデータセットに挑戦する上で、強いベースラインを一貫して上回っている。
これらの結果から,SSL埋め込みと組み合わせた明示的な韻律的監視は,高度な合成音声攻撃に対する堅牢性を大幅に向上させることが示された。
関連論文リスト
- VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - PROEMO: Prompt-Driven Text-to-Speech Synthesis Based on Emotion and Intensity Control [20.873353104077857]
本稿では,素早い感情制御を中心にしたアプローチを提案する。
提案アーキテクチャは,複数話者間での感情と強度制御を取り入れたアーキテクチャである。
我々は,大言語モデル(LLM)を用いて,言語コンテンツを保存しながら音声韻律を操作する。
論文 参考訳(メタデータ) (2025-01-10T12:10:30Z) - Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。
自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文 参考訳(メタデータ) (2024-07-18T13:42:38Z) - Do self-supervised speech and language models extract similar
representations as human brain? [2.390915090736061]
自己教師付き学習(SSL)によって訓練された音声と言語モデルは、音声と言語知覚の間の脳活動と強い整合性を示す。
我々は2つの代表的なSSLモデルであるWav2Vec2.0とGPT-2の脳波予測性能を評価した。
論文 参考訳(メタデータ) (2023-10-07T01:39:56Z) - Towards Spontaneous Style Modeling with Semi-supervised Pre-training for
Conversational Text-to-Speech Synthesis [53.511443791260206]
自発型音声と自発型行動ラベルの量を増やすための半教師付き事前学習法を提案する。
半教師付き学習の過程では、音声中の自発的な行動ラベルを検出するために、テキスト情報と音声情報の両方が考慮される。
論文 参考訳(メタデータ) (2023-08-31T09:50:33Z) - Diff-TTSG: Denoising probabilistic integrated speech and gesture
synthesis [19.35266496960533]
本稿では,Diff-TTSGと呼ばれる拡散型確率モデルについて述べる。
本稿では,統合音声とジェスチャー合成システムを評価するための,一様・多様主観的一様・多様主観的テストのセットについて述べる。
論文 参考訳(メタデータ) (2023-06-15T18:02:49Z) - Semi-supervised learning for continuous emotional intensity controllable
speech synthesis with disentangled representations [16.524515747017787]
半教師付き学習を用いて感情の連続的な強度を制御する新しい手法を提案する。
実験の結果,提案手法は制御性と自然性に優れていた。
論文 参考訳(メタデータ) (2022-11-11T12:28:07Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。