論文の概要: Enhancing Speaker Verification with Whispered Speech via Post-Processing
- arxiv url: http://arxiv.org/abs/2604.20229v1
- Date: Wed, 22 Apr 2026 06:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.99091
- Title: Enhancing Speaker Verification with Whispered Speech via Post-Processing
- Title(参考訳): 後処理によるWhispered Speechによる話者検証の強化
- Authors: Magdalena Gołębiowska, Piotr Syga,
- Abstract要約: 本研究では,より頑健な発話障害に対する表現を得るための学習レシピを用いたモデルを提案する。
提案システムは、細調整された話者検証バックボーン上に構築されたエンコーダ-デコーダ構造を用いる。
また, 発声音声を用いた性能評価において, 最も人気があり, 最先端の話者検証モデルの要約も提供する。
- 参考スコア(独自算出の注目度): 1.8849814100256281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker verification is a task of confirming an individual's identity through the analysis of their voice. Whispered speech differs from phonated speech in acoustic characteristics, which degrades the performance of speaker verification systems in real-life scenarios, including avoiding fully phonated speech to protect privacy, disrupt others, or when the lack of full vocalization is dictated by a disease. In this paper we propose a model with a training recipe to obtain more robust representations against whispered speech hindrances. The proposed system employs an encoder--decoder structure built atop a fine-tuned speaker verification backbone, optimized jointly using cosine similarity--based classification and triplet loss. We gain relative improvement of 22.26\% compared to the baseline (baseline 6.77\% vs ours 5.27\%) in normal vs whispered speech trials, achieving AUC of 98.16\%. In tests comparing whispered to whispered, our model attains an EER of 1.88\% with AUC equal to 99.73\%, which represents a 15\% relative enhancement over the prior leading ReDimNet-B2. We also offer a summary of the most popular and state-of-the-art speaker verification models in terms of their performance with whispered speech. Additionally, we evaluate how these models perform under noisy audios, obtaining that generally the same relative level of noise degrades the performance of speaker verification more significantly on whispered speech than on normal speech.
- Abstract(参考訳): 話者確認は、声の分析を通じて個人の身元を確認するタスクである。
発声された音声は音響特性において発声された音声と異なり、これは実際のシナリオにおける話者認証システムの性能を劣化させ、例えば、完全な発声された音声を避けてプライバシーを保護したり、他人を混乱させたり、あるいは完全な発声が病気によって予測される場合などである。
本稿では,より頑健な発話障害に対する表現を得るための学習レシピを用いたモデルを提案する。
提案システムは、細調整された話者検証バックボーン上に構築されたエンコーダ-デコーダ構造を用いて、コサイン類似性に基づく分類と三重項損失を併用して、協調的に最適化する。
正常対発声試験におけるベースライン(ベースライン6.77.%対我々の5.27.%)に比べて22.26.%の相対的な改善が得られ,98.16.%のAUCが達成された。
ささやき声とささやき声を比較したテストでは,従来のReDimNet-B2に比べて15倍の相対的な拡張率を示すAUCのEERが1.88倍に達し,AUCは99.73倍になった。
また, 発声音声を用いた性能評価において, 最も人気があり, 最先端の話者検証モデルについても概説する。
さらに、これらのモデルが雑音の多い音声下でどのように機能するかを評価し、一般的に同じレベルの雑音が、通常の音声よりも発声音声における話者検証の性能を著しく低下させることを示す。
関連論文リスト
- Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech [42.343691065979215]
Zero-shot Text-to-Speech (TTS)音声クローンは、深刻なプライバシーリスクを引き起こす。
我々はこのタスクを音声生成話者中毒(SGSP)として定式化する。
我々は、訓練されたモデルを変更して、他の話者の実用性を維持しながら、特定のアイデンティティの生成を防止する。
論文 参考訳(メタデータ) (2026-03-08T09:29:55Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly
Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。
我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。
次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文 参考訳(メタデータ) (2023-02-16T08:10:41Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Robust Self-Supervised Audio-Visual Speech Recognition [29.526786921769613]
本稿では,Audio-Visual HuBERT(AV-HuBERT)に基づく自己教師型音声視覚音声認識フレームワークを提案する。
利用可能な最大のAVSRベンチマークデータセットであるLSS3では、ラベル付きデータの10%未満を使用して、従来の最先端(28.0%対14.1%)よりも50%優れています。
我々のアプローチは、平均して75%以上(25.8%対5.8%)のオーディオベースモデルのWERを削減する。
論文 参考訳(メタデータ) (2022-01-05T18:50:50Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。