論文の概要: FastAudio: A Learnable Audio Front-End for Spoof Speech Detection
- arxiv url: http://arxiv.org/abs/2109.02774v1
- Date: Mon, 6 Sep 2021 23:32:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:23:46.801338
- Title: FastAudio: A Learnable Audio Front-End for Spoof Speech Detection
- Title(参考訳): FastAudio:音声検出のための学習可能なフロントエンド
- Authors: Quchen Fu, Zhongwei Teng, Jules White, Maria Powell, and Douglas C.
Schmidt
- Abstract要約: 話者認証システムは、偽造攻撃から保護するために必要である。
本稿では,下流タスクとの共同学習による音声表現を学習可能なフロントエンドと比較する。
我々は,固定フィルタバンクを学習可能なレイヤに置き換えて,アンチスプーフィングタスクへの適応性を高めることを提案する。
- 参考スコア(独自算出の注目度): 1.5984927623688914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice assistants, such as smart speakers, have exploded in popularity. It is
currently estimated that the smart speaker adoption rate has exceeded 35% in
the US adult population. Manufacturers have integrated speaker identification
technology, which attempts to determine the identity of the person speaking, to
provide personalized services to different members of the same family. Speaker
identification can also play an important role in controlling how the smart
speaker is used. For example, it is not critical to correctly identify the user
when playing music. However, when reading the user's email out loud, it is
critical to correctly verify the speaker that making the request is the
authorized user. Speaker verification systems, which authenticate the speaker
identity, are therefore needed as a gatekeeper to protect against various
spoofing attacks that aim to impersonate the enrolled user. This paper compares
popular learnable front-ends which learn the representations of audio by joint
training with downstream tasks (End-to-End). We categorize the front-ends by
defining two generic architectures and then analyze the filtering stages of
both types in terms of learning constraints. We propose replacing fixed
filterbanks with a learnable layer that can better adapt to anti-spoofing
tasks. The proposed FastAudio front-end is then tested with two popular
back-ends to measure the performance on the LA track of the ASVspoof 2019
dataset. The FastAudio front-end achieves a relative improvement of 27% when
compared with fixed front-ends, outperforming all other learnable front-ends on
this task.
- Abstract(参考訳): スマートスピーカーのような音声アシスタントは、人気を博している。
現在、米国の成人人口でスマートスピーカーの採用率は35%を超えていると推定されている。
メーカーは話者識別技術を統合し、話し手の身元を判断し、同じ家族の異なるメンバーにパーソナライズされたサービスを提供する。
話者識別は、スマートスピーカーの使用方法を制御する上でも重要な役割を果たす。
例えば、音楽を演奏する際に正しくユーザを識別することは重要ではない。
しかし,ユーザのメールを大声で読む際には,要求が承認されたユーザであることを話者が正しく検証することが重要である。
それゆえ、話者のアイデンティティを認証する話者認証システムは、登録ユーザを偽装することを目的とした様々なスプーフィング攻撃から保護するためのゲートキーパーとして必要である。
本稿では,下流タスク(End-to-End)と共同学習による音声表現を学習可能なフロントエンドと比較する。
2つの汎用アーキテクチャを定義してフロントエンドを分類し、学習制約の観点から両タイプのフィルタリング段階を分析する。
そこで我々は,固定フィルタバンクをアンチスプーフィングタスクに適応可能な学習可能な層に置き換える手法を提案する。
提案されたFastAudioフロントエンドは、ASVspoof 2019データセットのLAトラックのパフォーマンスを測定するために、2つの人気のあるバックエンドでテストされる。
FastAudioフロントエンドは、固定されたフロントエンドと比較して相対的に27%改善し、このタスクで他の学習可能なフロントエンドよりも優れています。
関連論文リスト
- An Effective Transformer-based Contextual Model and Temporal Gate
Pooling for Speaker Identification [0.0]
本稿では,トランスフォーマーに基づく文脈モデルを適用した,効果的なエンドツーエンド話者識別モデルを提案する。
話者識別のための強力な学習能力を備えたプール手法であるテンポラルゲートプーリングを提案する。
提案手法は28.5Mパラメータで87.1%の精度を達成し、317.7Mパラメータでwav2vec2に匹敵する精度を示した。
論文 参考訳(メタデータ) (2023-08-22T07:34:07Z) - Meta-Learning Framework for End-to-End Imposter Identification in Unseen
Speaker Recognition [4.143603294943441]
未確認話者認識における不適切な識別のための固定しきい値(EERメトリックを用いた計算)を用いた一般化の問題を示す。
次に、より優れた性能を実現するために、頑健な話者特異的しきい値設定手法を導入する。
提案手法の有効性をVoxCeleb1, VCTK, FFSVC 2022データセットで示し, ベースラインを最大10%上回った。
論文 参考訳(メタデータ) (2023-06-01T17:49:58Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number
of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。
提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-10-07T02:48:49Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Leveraging speaker attribute information using multi task learning for
speaker verification and diarization [33.60058873783114]
対象アプリケーションに不適合な音声コーパスに対してのみ利用できる場合であっても,補助ラベル情報を利用するためのフレームワークを提案する。
本研究では,2種類の話者属性情報を活用することで,検証作業とダイアリゼーション作業の両方において,深層話者埋め込みの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-27T13:10:51Z) - Integrated Replay Spoofing-aware Text-independent Speaker Verification [47.41124427552161]
本稿では,話者認証と提示攻撃検出の統合システムを構築するための2つのアプローチを提案する。
第1のアプローチは、話者識別、提示攻撃検出、マルチタスク学習を用いた統合システムとを同時に訓練する。
本稿では、話者検証と提示攻撃検出に分離されたディープニューラルネットワーク(DNN)を用いたバックエンドモジュール方式を提案する。
論文 参考訳(メタデータ) (2020-06-10T01:24:55Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。