論文の概要: An Effective Energy Mask-based Adversarial Evasion Attacks against Misclassification in Speaker Recognition Systems
- arxiv url: http://arxiv.org/abs/2601.22390v1
- Date: Thu, 29 Jan 2026 22:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.11431
- Title: An Effective Energy Mask-based Adversarial Evasion Attacks against Misclassification in Speaker Recognition Systems
- Title(参考訳): 話者認識システムにおける非分類化に対する効率よいエネルギーマスクによる対進攻撃
- Authors: Chanwoo Park, Chanwoo Kim,
- Abstract要約: 音声データの無差別使用に対する最も効果的な対策として,アドリアック攻撃法が出現している。
本研究では,従来の音声データのエネルギーマスキングにパワースペクトルを用いた新しい手法であるマスク型エネルギー摂動(MEP)を提案する。
提案手法は,音質と回避効果の両方において高い性能を示した。
- 参考スコア(独自算出の注目度): 15.9691465248047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evasion attacks pose significant threats to AI systems, exploiting vulnerabilities in machine learning models to bypass detection mechanisms. The widespread use of voice data, including deepfakes, in promising future industries is currently hindered by insufficient legal frameworks. Adversarial attack methods have emerged as the most effective countermeasure against the indiscriminate use of such data. This research introduces masked energy perturbation (MEP), a novel approach using power spectrum for energy masking of original voice data. MEP applies masking to small energy regions in the frequency domain before generating adversarial perturbations, targeting areas less noticeable to the human auditory model. The study primarily employs advanced speaker recognition models, including ECAPA-TDNN and ResNet34, which have shown remarkable performance in speaker verification tasks. The proposed MEP method demonstrated strong performance in both audio quality and evasion effectiveness. The energy masking approach effectively minimizes the perceptual evaluation of speech quality (PESQ) degradation, indicating that minimal perceptual distortion occurs to the human listener despite the adversarial perturbations. Specifically, in the PESQ evaluation, the relative performance of the MEP method was 26.68% when compared to the fast gradient sign method (FGSM) and iterative FGSM.
- Abstract(参考訳): 侵入攻撃はAIシステムに重大な脅威をもたらし、機械学習モデルの脆弱性を利用して検出メカニズムをバイパスする。
将来有望な産業におけるディープフェイクを含む音声データの普及は、現在、不十分な法的枠組みによって妨げられている。
このようなデータの無差別使用に対する最も効果的な対策として、敵攻撃法が出現している。
本研究では,従来の音声データのエネルギーマスキングにパワースペクトルを用いた新しい手法であるマスク型エネルギー摂動(MEP)を提案する。
MEPは、人間の聴覚モデルでは目立たない領域をターゲットとして、対向的な摂動が発生する前に周波数領域の小さなエネルギー領域にマスキングを適用する。
この研究は主に、ECAPA-TDNNやResNet34を含む高度な話者認識モデルを用いており、話者検証タスクにおいて顕著な性能を示している。
提案手法は,音質と回避効果の両方において高い性能を示した。
エネルギーマスキング手法は音声品質劣化(PESQ)の知覚的評価を効果的に最小化し, 対向的摂動にもかかわらず人間の聴取者に最小限の知覚的歪みが生じることを示す。
具体的には, PESQ 評価では, 高速勾配符号法 (FGSM) と反復FGSM と比較して, MEP 法の相対性能は26.68%であった。
関連論文リスト
- SAFE-QAQ: End-to-End Slow-Thinking Audio-Text Fraud Detection via Reinforcement Learning [52.29460857893198]
既存の不正検出方法は、書き起こされたテキストに依存しており、ASRのエラーや、声調や環境条件のような重要な音響的手がかりが欠けている。
音声に基づくスロー思考詐欺検出のためのエンドツーエンド包括的フレームワークSAFE-QAQを提案する。
本フレームワークは,ライブコール中に動的リスクアセスメントフレームワークを導入し,不正の早期検出と防止を可能にする。
論文 参考訳(メタデータ) (2026-01-04T06:09:07Z) - Dual Attention Guided Defense Against Malicious Edits [70.17363183107604]
本稿では,DANP(Dual Attention-Guided Noise Perturbation)免疫法を提案する。
本手法は,悪意ある編集に対する印象的な免疫力を示し,その手法が最先端の性能を達成することを実証した。
論文 参考訳(メタデータ) (2025-12-16T12:01:28Z) - ENJ: Optimizing Noise with Genetic Algorithms to Jailbreak LSMs [61.09812971042288]
進化的騒音ジェイルブレイク(ENJ)
本稿では,環境騒音を受動的干渉から積極的に最適化可能な攻撃キャリアへ変換する遺伝的アルゴリズムを提案する。
複数の主流音声モデルに対する実験により、ENJの攻撃効果は既存のベースライン法よりもかなり優れていることが示された。
論文 参考訳(メタデータ) (2025-09-14T06:39:38Z) - An Enhanced Audio Feature Tailored for Anomalous Sound Detection Based on Pre-trained Models [34.59032968400701]
Anomalous Sound Detection (ASD) は、機械から異常音を特定することを目的としている。
異常位置の不確かさと機械音のノイズなどの余分な情報により、ASDシステムの性能が向上する。
本稿では,各周波数帯に対して等間隔に分散したフィルタバンクを用いた新しい音声特徴量を提案する。
論文 参考訳(メタデータ) (2025-08-21T08:04:08Z) - A Small-footprint Acoustic Echo Cancellation Solution for Mobile Full-Duplex Speech Interactions [1.5929852667227002]
本稿では,様々なハードウェア,非線形歪み,長時間の待ち時間といったシナリオにおける課題に対処するニューラルネットワークベースのソリューションを提案する。
プログレッシブ・ラーニング(Progressive Learning)は、AEC増強効果を改善するために使用され、それによって音声品質が大幅に向上する。
論文 参考訳(メタデータ) (2025-08-11T02:45:31Z) - Deep Active Speech Cancellation with Mamba-Masking Network [62.73250985838971]
アクティブ音声キャンセラ(ASC)のための新しい深層学習ネットワークを提案する。
提案したMamba-Maskingアーキテクチャは、符号化された参照信号と直接対話するマスキング機構を導入する。
実験の結果、ANCシナリオでは7.2dB、ASCでは6.2dBの改善が達成された。
論文 参考訳(メタデータ) (2025-02-03T09:22:26Z) - SecONN: An Optical Neural Network Framework with Concurrent Detection of Thermal Fault Injection Attacks [0.7262345640500065]
本稿では,まず,Mach-Zhender干渉計を用いたベクトル行列乗算器(VMM)に基づくSPAAのサーマルフォールトインジェクション攻撃の脅威を提案する。
そこで本研究では,推論だけでなく,同時検出が可能な光ニューラルネットワークフレームワークSecONNを提案する。
論文 参考訳(メタデータ) (2024-11-22T05:31:36Z) - Adversarial Purification for Data-Driven Power System Event Classifiers
with Diffusion Models [0.8848340429852071]
ファサー計測ユニット(PMU)のグローバル展開は、電力システムのリアルタイム監視を可能にする。
近年の研究では、機械学習に基づく手法が敵の攻撃に弱いことが示されている。
本稿では,拡散モデルに基づく効果的な対向的浄化手法を提案する。
論文 参考訳(メタデータ) (2023-11-13T06:52:56Z) - Leveraging Domain Features for Detecting Adversarial Attacks Against
Deep Speech Recognition in Noise [18.19207291891767]
ディープASRシステムに対する敵攻撃は非常に成功している。
この作業では、フィルタバンクベースの機能を活用して、攻撃特性をより正確に把握し、検出を改善する。
逆フィルタバンクの機能は、クリーンな環境とノイズの多い環境の両方でよく機能する。
論文 参考訳(メタデータ) (2022-11-03T07:25:45Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Bayesian Optimization with Machine Learning Algorithms Towards Anomaly
Detection [66.05992706105224]
本稿では,ベイズ最適化手法を用いた効果的な異常検出フレームワークを提案する。
ISCX 2012データセットを用いて検討したアルゴリズムの性能を評価する。
実験結果から, 精度, 精度, 低コストアラームレート, リコールの観点から, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-05T19:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。