論文の概要: Improving speaker verification robustness with synthetic emotional utterances
- arxiv url: http://arxiv.org/abs/2412.00319v1
- Date: Sat, 30 Nov 2024 02:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:41:56.469728
- Title: Improving speaker verification robustness with synthetic emotional utterances
- Title(参考訳): 合成感情発話による話者の頑健性向上
- Authors: Nikhil Kumar Koditala, Chelsea Jui-Ting Ju, Ruirui Li, Minho Jin, Aman Chadha, Andreas Stolcke,
- Abstract要約: 話者検証(SV)システムは、特定の話者から発する音声サンプルが発するかどうかを確認するための認証サービスを提供する。
従来のモデルでは、感情的な発話を扱う場合、中立なモデルに比べて高いエラー率を示す。
この問題は、ラベル付き感情音声データの利用が限られていることに起因している。
本稿では,CycleGANフレームワークを用いたデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 14.63248006004598
- License:
- Abstract: A speaker verification (SV) system offers an authentication service designed to confirm whether a given speech sample originates from a specific speaker. This technology has paved the way for various personalized applications that cater to individual preferences. A noteworthy challenge faced by SV systems is their ability to perform consistently across a range of emotional spectra. Most existing models exhibit high error rates when dealing with emotional utterances compared to neutral ones. Consequently, this phenomenon often leads to missing out on speech of interest. This issue primarily stems from the limited availability of labeled emotional speech data, impeding the development of robust speaker representations that encompass diverse emotional states. To address this concern, we propose a novel approach employing the CycleGAN framework to serve as a data augmentation method. This technique synthesizes emotional speech segments for each specific speaker while preserving the unique vocal identity. Our experimental findings underscore the effectiveness of incorporating synthetic emotional data into the training process. The models trained using this augmented dataset consistently outperform the baseline models on the task of verifying speakers in emotional speech scenarios, reducing equal error rate by as much as 3.64% relative.
- Abstract(参考訳): 話者検証(SV)システムは、特定の話者から発する音声サンプルが発するかどうかを確認するための認証サービスを提供する。
この技術は、個人の好みに合わせてパーソナライズされた様々なアプリケーションに道を開いた。
SVシステムで直面する注目すべき課題は、様々な感情スペクトルにわたって一貫して機能する能力である。
既存のモデルの多くは、中立なモデルに比べて感情的な発話を扱うときに高いエラー率を示す。
結果として、この現象は、しばしば興味をそそる発言に欠落する。
この問題は、ラベル付き感情音声データの入手が限られていることに起因し、多様な感情状態を含む頑健な話者表現の開発を妨げる。
そこで本研究では,CycleGANフレームワークを用いたデータ拡張手法を提案する。
本手法は, それぞれの話者の感情音声セグメントを合成し, 独特な声質を保ちながら合成する。
実験結果から, 総合的感情データをトレーニングプロセスに組み込むことの有効性が示唆された。
この拡張データセットを使用してトレーニングされたモデルは、感情的な発話シナリオにおける話者の検証作業において、ベースラインモデルよりも一貫して優れており、同じエラー率を3.64%まで削減している。
関連論文リスト
- Exploring VQ-VAE with Prosody Parameters for Speaker Anonymization [0.5497663232622965]
本稿ではベクトル量子変分自動エンコーダ(VQ-VAE)に基づくエンドツーエンドネットワークを用いた話者匿名化手法について検討する。
言語的・感情的な内容を保持しながら、話者のアイデンティティを特に標的にし、修正するためにこれらのコンポーネントをアンタングルするように設計されている。
この手法は感情情報の保存において,ほとんどのベースライン技術より優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T08:55:10Z) - Revealing Emotional Clusters in Speaker Embeddings: A Contrastive
Learning Strategy for Speech Emotion Recognition [27.098672790099304]
感情情報は話者埋め込みに間接的に埋め込まれていると推定され、その未利用に繋がった。
本研究は,話者内クラスタの形で,感情と最先端の話者埋め込みの直接的かつ有用な関係を明らかにする。
音声の感情認識のための感情非ラベルデータに適用する新しいコントラスト事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-19T20:31:53Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Multiscale Contextual Learning for Speech Emotion Recognition in
Emergency Call Center Conversations [4.297070083645049]
本稿では,音声感情認識のためのマルチスケール会話文脈学習手法を提案する。
音声の書き起こしと音響セグメントの両方について,本手法について検討した。
我々のテストによると、過去のトークンから派生したコンテキストは、以下のトークンよりも正確な予測に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-08-28T20:31:45Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Beyond Isolated Utterances: Conversational Emotion Recognition [33.52961239281893]
音声の感情認識は、発話の記録から話者の感情状態を認識するタスクである。
本稿では,対話型感情認識(CER)をシーケンスラベリングタスクとして扱うことで,対話型感情認識(CER)にいくつかのアプローチを提案する。
CERのトランスフォーマーアーキテクチャについて検討し,ResNet-34およびBiLSTMアーキテクチャと比較した。
論文 参考訳(メタデータ) (2021-09-13T16:40:35Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。