論文の概要: SuperVoice: Text-Independent Speaker Verification Using Ultrasound
Energy in Human Speech
- arxiv url: http://arxiv.org/abs/2205.14496v1
- Date: Sat, 28 May 2022 18:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-04 18:38:53.453209
- Title: SuperVoice: Text-Independent Speaker Verification Using Ultrasound
Energy in Human Speech
- Title(参考訳): SuperVoice:人間の音声における超音波エネルギーを用いたテキスト非依存話者検証
- Authors: Hanqing Guo, Qiben Yan, Nikolay Ivanov, Ying Zhu, Li Xiao, Eric J.
Hunter
- Abstract要約: ボイスアクティベートシステムは、さまざまなデスクトップ、モバイル、IoT(Internet-of-Things)デバイスに統合されている。
既存の話者検証技術は、音声コマンドの可聴周波数範囲から抽出した分光学的特徴により、個々の話者を識別する。
本稿では,特徴融合機構を備えた2ストリームアーキテクチャを用いた話者検証システム SUPERVOICE を提案する。
- 参考スコア(独自算出の注目度): 10.354590276508283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice-activated systems are integrated into a variety of desktop, mobile, and
Internet-of-Things (IoT) devices. However, voice spoofing attacks, such as
impersonation and replay attacks, in which malicious attackers synthesize the
voice of a victim or simply replay it, have brought growing security concerns.
Existing speaker verification techniques distinguish individual speakers via
the spectrographic features extracted from an audible frequency range of voice
commands. However, they often have high error rates and/or long delays. In this
paper, we explore a new direction of human voice research by scrutinizing the
unique characteristics of human speech at the ultrasound frequency band. Our
research indicates that the high-frequency ultrasound components (e.g. speech
fricatives) from 20 to 48 kHz can significantly enhance the security and
accuracy of speaker verification. We propose a speaker verification system,
SUPERVOICE that uses a two-stream DNN architecture with a feature fusion
mechanism to generate distinctive speaker models. To test the system, we create
a speech dataset with 12 hours of audio (8,950 voice samples) from 127
participants. In addition, we create a second spoofed voice dataset to evaluate
its security. In order to balance between controlled recordings and real-world
applications, the audio recordings are collected from two quiet rooms by 8
different recording devices, including 7 smartphones and an ultrasound
microphone. Our evaluation shows that SUPERVOICE achieves 0.58% equal error
rate in the speaker verification task, it only takes 120 ms for testing an
incoming utterance, outperforming all existing speaker verification systems.
Moreover, within 91 ms processing time, SUPERVOICE achieves 0% equal error rate
in detecting replay attacks launched by 5 different loudspeakers.
- Abstract(参考訳): ボイスアクティベートシステムは、さまざまなデスクトップ、モバイル、IoT(Internet-of-Things)デバイスに統合されている。
しかし、悪意のある攻撃者が被害者の声を合成したり、単にリプレイしたりする、不正行為やリプレイ攻撃などの音声偽造攻撃は、セキュリティ上の懸念を増している。
既存の話者検証手法では、音声コマンドの可聴周波数範囲から抽出したスペクトル特徴を用いて個々の話者を識別する。
しかし、それらはしばしば高いエラー率と/または長い遅延を持つ。
本稿では,超音波周波数帯における人間の発話の特徴を精査し,人間の音声研究の新しい方向性について検討する。
本研究は,20kHzから48kHzまでの高周波超音波成分(音声摩擦剤など)が,話者検証の安全性と精度を大幅に向上させることを示す。
本稿では,特徴融合機構を備えた2ストリームdnnアーキテクチャを用いた話者照合システムsupervoiceを提案する。
本システムをテストするために,127人の参加者から12時間音声(8,950音声サンプル)の音声データセットを作成する。
さらに,第2のスプーフ音声データセットを作成し,そのセキュリティを評価する。
制御された録音と実世界のアプリケーションとのバランスをとるために、音声録音は2つの静かな部屋から7つのスマートフォンと超音波マイクを含む8つの異なる録音装置によって収集される。
評価の結果,SuPERVOICEは話者検証作業において0.58%の誤り率を達成し,受信した発話を120ミリ秒で検証し,既存の話者検証システムよりも優れていた。
さらに、処理時間91ms以内では、5つの異なるスピーカによって起動されるリプレイ攻撃を検出する際に、SuPERVOICEは0%のエラー率を達成する。
関連論文リスト
- EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - Artificial Neural Networks to Recognize Speakers Division from Continuous Bengali Speech [0.5330251011543498]
我々は,男性633人,女性633人を対象に,45時間以上の音声データを用いた。
私たちは85.44%の精度を記録しました。
論文 参考訳(メタデータ) (2024-04-18T10:17:20Z) - Phoneme-Based Proactive Anti-Eavesdropping with Controlled Recording Privilege [26.3587130339825]
本稿では,情報マスキングのアイデアを取り入れた新しい音素ベースノイズを提案する。
本システムでは,すべての音声認識システムにおいて,録音の認識精度を50%以下に抑えることができる。
論文 参考訳(メタデータ) (2024-01-28T16:56:56Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - Nonverbal Sound Detection for Disordered Speech [24.636175845214822]
15個の非言語音を用いた音声事象検出に依拠する音声入力システムを提案する。
このシステムは、人の音声能力に関係なく動作し、既存の技術に完全にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2022-02-15T22:02:58Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Attack on practical speaker verification system using universal
adversarial perturbations [20.38185341318529]
本研究は,提案する対人摂動を,相手が話しているときに別個の音源として演奏することにより,現実的な話者検証システムにより,相手を対象話者と誤認することを示す。
2段階のアルゴリズムが提案され、テキストに依存しない普遍的対向摂動を最適化し、認証テキスト認識にはほとんど影響を与えない。
論文 参考訳(メタデータ) (2021-05-19T09:43:34Z) - FoolHD: Fooling speaker identification by Highly imperceptible
adversarial Disturbances [63.80959552818541]
話者識別モデルに対する知覚不能な摂動を発生させるホワイトボックス・ステガノグラフィーによる敵攻撃を提案する。
我々のアプローチであるFoolHDは、DCTドメインで動作するGated Convolutional Autoencoderを使用し、多目的損失関数で訓練されている。
我々は,VoxCelebを用いて訓練した250話者識別xベクトルネットワークを用いてFoolHDを検証する。
論文 参考訳(メタデータ) (2020-11-17T07:38:26Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。