論文の概要: Frame-to-Utterance Convergence: A Spectra-Temporal Approach for Unified
Spoofing Detection
- arxiv url: http://arxiv.org/abs/2309.09837v1
- Date: Mon, 18 Sep 2023 14:54:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 12:50:17.027126
- Title: Frame-to-Utterance Convergence: A Spectra-Temporal Approach for Unified
Spoofing Detection
- Title(参考訳): フレーム-to-Utterance Convergence:一括検出のためのスペクトル-時間的アプローチ
- Authors: Awais Khan, Khalid Mahmood Malik, Shah Nawaz
- Abstract要約: 既存のアンチ・スプーフィング法は、しばしば合成攻撃やリプレイ攻撃のような特定の攻撃タイプをシミュレートする。
現在の統合されたソリューションは、偽造品を検出するのに苦労している。
フレームレベルおよび発話レベル係数を利用したスペクトル時間融合を提案する。
- 参考スコア(独自算出の注目度): 6.713879688002623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice spoofing attacks pose a significant threat to automated speaker
verification systems. Existing anti-spoofing methods often simulate specific
attack types, such as synthetic or replay attacks. However, in real-world
scenarios, the countermeasures are unaware of the generation schema of the
attack, necessitating a unified solution. Current unified solutions struggle to
detect spoofing artifacts, especially with recent spoofing mechanisms. For
instance, the spoofing algorithms inject spectral or temporal anomalies, which
are challenging to identify. To this end, we present a spectra-temporal fusion
leveraging frame-level and utterance-level coefficients. We introduce a novel
local spectral deviation coefficient (SDC) for frame-level inconsistencies and
employ a bi-LSTM-based network for sequential temporal coefficients (STC),
which capture utterance-level artifacts. Our spectra-temporal fusion strategy
combines these coefficients, and an auto-encoder generates spectra-temporal
deviated coefficients (STDC) to enhance robustness. Our proposed approach
addresses multiple spoofing categories, including synthetic, replay, and
partial deepfake attacks. Extensive evaluation on diverse datasets
(ASVspoof2019, ASVspoof2021, VSDC, partial spoofs, and in-the-wild deepfakes)
demonstrated its robustness for a wide range of voice applications.
- Abstract(参考訳): 音声スプーフィング攻撃は、自動話者認証システムに重大な脅威をもたらす。
既存のアンチスプーフィングメソッドは、しばしば合成攻撃やリプレイ攻撃のような特定の攻撃タイプをシミュレートする。
しかし、現実のシナリオでは、対策は攻撃の生成スキーマに気付かず、統一された解決策を必要とする。
現在の統一ソリューションは、特に最近のスプーフィングメカニズムにおいて、スプーフィングアーティファクトの検出に苦労している。
例えば、スプーフィングアルゴリズムはスペクトルまたは時間異常を注入するが、識別は困難である。
この目的のために,フレームレベルおよび発話レベル係数を利用したスペクトル時間融合を提案する。
フレームレベルの不整合に対する新しい局所スペクトル偏差係数(SDC)を導入し,発話レベルのアーティファクトをキャプチャする逐次時間係数(STC)にバイLSTMベースのネットワークを用いる。
我々のスペクトル時間融合戦略はこれらの係数を組み合わせており、オートエンコーダはスペクトル時間ずれ係数(STDC)を生成し、堅牢性を高める。
提案手法は, 合成, リプレイ, 部分的なディープフェイク攻撃を含む複数のスプーフィングカテゴリに対処する。
多様なデータセット(ASVspoof2019, ASVspoof2021, VSDC, 部分スプーフ, in-the-wild ディープフェイク)に対する広範囲な評価は、幅広い音声アプリケーションに対する堅牢性を示した。
関連論文リスト
- Toward Improving Synthetic Audio Spoofing Detection Robustness via Meta-Learning and Disentangled Training With Adversarial Examples [33.445126880876415]
自動話者検証システムに到達させる代わりに、スプーフ攻撃をフィルタリングする信頼性と堅牢なスプーフ検出システムを提案する。
データ不均衡問題に対処するために重み付き加法的角縁損失が提案され、スプーフィング攻撃に対する一般化を改善するために異なるマージンが割り当てられている。
データ拡張戦略として、スプーフィング音声に知覚不能な摂動を加えて、敵の例にのみ対応する正規化統計が実行されることを保証するために、補助的なバッチ正規化を用いる。
論文 参考訳(メタデータ) (2024-08-23T19:26:54Z) - AudioFool: Fast, Universal and synchronization-free Cross-Domain Attack
on Speech Recognition [0.9913418444556487]
オーバー・ザ・エア(OTA)モデルと互換性のあるロバスト攻撃に必要な特性について検討する。
任意の特性を持つ攻撃を発生させる手法を設計する。
本手法を標準キーワード分類タスクで評価し,OTAで解析する。
論文 参考訳(メタデータ) (2023-09-20T16:59:22Z) - Robust Audio Anti-Spoofing with Fusion-Reconstruction Learning on
Multi-Order Spectrograms [19.514932118278523]
本稿では,S2pecNetというスペクトル融合再構成戦略を用いた新しい深層学習手法を提案する。
融合表現から入力スペクトログラムへの再構成により、潜在的融合情報損失がさらに低減される。
提案手法は,広く使用されているデータセット上でのEERの0.77%で最先端の性能を達成した。
論文 参考訳(メタデータ) (2023-08-18T04:51:15Z) - Spatial-Frequency Discriminability for Revealing Adversarial Perturbations [53.279716307171604]
敵の摂動に対するディープニューラルネットワークの脆弱性は、コンピュータビジョンコミュニティで広く認識されている。
現在のアルゴリズムは、通常、自然および敵対的なデータの識別的分解を通じて、敵のパターンを検出する。
空間周波数Krawtchouk分解に基づく識別検出器を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:18:59Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Dual Spoof Disentanglement Generation for Face Anti-spoofing with Depth
Uncertainty Learning [54.15303628138665]
フェース・アンチ・スプーフィング(FAS)は、顔認識システムが提示攻撃を防ぐ上で重要な役割を担っている。
既存のフェース・アンチ・スプーフィング・データセットは、アイデンティティと重要なばらつきが不十分なため、多様性を欠いている。
我々は「生成によるアンチ・スプーフィング」によりこの問題に対処するデュアル・スポット・ディアンタングメント・ジェネレーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-01T15:36:59Z) - AASIST: Audio Anti-Spoofing using Integrated Spectro-Temporal Graph
Attention Networks [45.2410605401286]
我々は,スコアレベルのアンサンブルを使わずに,幅広い種類のスプーフ攻撃を検出可能な,効率的な単一システムの構築を目指している。
異種時間領域とスペクトル領域にまたがるアーティファクトをモデル化した新しい異種重ねグラフアテンション層を提案する。
AASISTという名前の我々のアプローチは、現在の最先端技術よりも20%優れています。
論文 参考訳(メタデータ) (2021-10-04T05:48:25Z) - Multi-Discriminator Sobolev Defense-GAN Against Adversarial Attacks for
End-to-End Speech Systems [78.5097679815944]
本稿では,最先端音声テキストシステムのためのエンドツーエンド攻撃に対する防御手法を提案する。
まず,短時間フーリエ変換を用いた2次元スペクトルを用いた音声信号の表現を行う。
第二に、スペクトログラム部分空間射影演算を用いて安全ベクトルを反復的に発見する。
第3に,ソボレフ積分確率計量で学習した新しいganアーキテクチャを用いて,このような安全なベクトルを持つスペクトログラムを合成する。
論文 参考訳(メタデータ) (2021-03-15T01:11:13Z) - Class-Conditional Defense GAN Against End-to-End Speech Attacks [82.21746840893658]
本稿では,DeepSpeech や Lingvo といった先進的な音声テキストシステムを騙すために開発された,エンドツーエンドの敵対攻撃に対する新しいアプローチを提案する。
従来の防御手法とは異なり、提案手法は入力信号のオートエンコードのような低レベル変換を直接利用しない。
我々の防衛GANは、単語誤り率と文レベルの認識精度において、従来の防衛アルゴリズムよりもかなり優れています。
論文 参考訳(メタデータ) (2020-10-22T00:02:02Z) - Temporal Sparse Adversarial Attack on Sequence-based Gait Recognition [56.844587127848854]
このような攻撃に対して,最先端の歩行認識モデルが脆弱であることを示す。
生成した対向ネットワークに基づくアーキテクチャを用いて、対向的な高品質な歩行シルエットやビデオフレームを意味的に生成する。
実験結果から, フレームの1分の1しか攻撃されない場合, 対象モデルの精度は劇的に低下することがわかった。
論文 参考訳(メタデータ) (2020-02-22T10:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。