論文の概要: SHIELD: A Secure and Highly Enhanced Integrated Learning for Robust Deepfake Detection against Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2507.13170v1
- Date: Thu, 17 Jul 2025 14:33:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.539445
- Title: SHIELD: A Secure and Highly Enhanced Integrated Learning for Robust Deepfake Detection against Adversarial Attacks
- Title(参考訳): ShiELD: 敵攻撃に対するロバストディープフェイク検出のためのセキュアで高度に強化された統合学習
- Authors: Kutub Uddin, Awais Khan, Muhammad Umar Farooq, Khalid Malik,
- Abstract要約: ディープフェイク音声を検出する既存の方法は、しばしば反法医学的(AF)攻撃に弱い。
本稿では,新たな共同学習手法ShielDを提案する。
提案したShielDは、生成AF攻撃に対する防御を強化し、様々な生成モデルに対して堅牢な性能を実現する。
- 参考スコア(独自算出の注目度): 4.820654815730787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio plays a crucial role in applications like speaker verification, voice-enabled smart devices, and audio conferencing. However, audio manipulations, such as deepfakes, pose significant risks by enabling the spread of misinformation. Our empirical analysis reveals that existing methods for detecting deepfake audio are often vulnerable to anti-forensic (AF) attacks, particularly those attacked using generative adversarial networks. In this article, we propose a novel collaborative learning method called SHIELD to defend against generative AF attacks. To expose AF signatures, we integrate an auxiliary generative model, called the defense (DF) generative model, which facilitates collaborative learning by combining input and output. Furthermore, we design a triplet model to capture correlations for real and AF attacked audios with real-generated and attacked-generated audios using auxiliary generative models. The proposed SHIELD strengthens the defense against generative AF attacks and achieves robust performance across various generative models. The proposed AF significantly reduces the average detection accuracy from 95.49% to 59.77% for ASVspoof2019, from 99.44% to 38.45% for In-the-Wild, and from 98.41% to 51.18% for HalfTruth for three different generative models. The proposed SHIELD mechanism is robust against AF attacks and achieves an average accuracy of 98.13%, 98.58%, and 99.57% in match, and 98.78%, 98.62%, and 98.85% in mismatch settings for the ASVspoof2019, In-the-Wild, and HalfTruth datasets, respectively.
- Abstract(参考訳): オーディオは、話者認証、音声対応スマートデバイス、オーディオ会議といったアプリケーションにおいて重要な役割を果たす。
しかし、ディープフェイクのような音声操作は、誤報の拡散を可能にすることによって重大なリスクを生じさせる。
我々の経験的分析により、ディープフェイク音声を検出する既存の方法は、しばしば反法医学的(AF)攻撃、特に生成的敵ネットワークによる攻撃に弱いことが判明した。
本稿では,新たな協調学習手法 ShiELD を提案する。
AFシグネチャを公開するために、我々はDF生成モデルと呼ばれる補助的生成モデルを統合し、入力と出力を組み合わせることで協調学習を容易にする。
さらに、補助生成モデルを用いて、実聴・実聴・実聴・実聴の相関関係を抽出するトリプレットモデルを設計する。
提案したShielDは、生成AF攻撃に対する防御を強化し、様々な生成モデルに対して堅牢な性能を実現する。
提案されたAFは、ASVspoof2019の平均検出精度を95.49%から59.77%に、In-the-Wildでは99.44%から38.45%に、HelfTruthでは98.41%から51.18%に大幅に下げた。
提案されたShielDメカニズムはAF攻撃に対して堅牢であり、平均精度は98.13%、98.58%、99.57%、ASVspoof2019、In-the-Wild、HalfTruthデータセットの98.78%、98.62%、98.85%である。
関連論文リスト
- I Can Hear You: Selective Robust Training for Deepfake Audio Detection [16.52185019459127]
私たちはこれまでに1300万のサンプルからなる、DeepFakeVox-HQという、最大規模の公開音声データセットを確立しました。
これまで報告された高い精度にもかかわらず、既存のディープフェイク音声検出装置は、さまざまな収集されたデータセットに苦戦している。
高周波成分に着目したF-SAT:周波数選択適応学習法を提案する。
論文 参考訳(メタデータ) (2024-10-31T18:21:36Z) - Unraveling Adversarial Examples against Speaker Identification --
Techniques for Attack Detection and Victim Model Classification [24.501269108193412]
敵対的な例は話者識別システムを脅かすことが証明されている。
本稿では,敵対的事例の存在を検出する手法を提案する。
また、敵攻撃を行う被害者モデルを特定する方法についても紹介する。
論文 参考訳(メタデータ) (2024-02-29T17:06:52Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Ada3Diff: Defending against 3D Adversarial Point Clouds via Adaptive
Diffusion [70.60038549155485]
ディープ3Dポイントクラウドモデルは敵攻撃に敏感であり、自律運転のような安全クリティカルなアプリケーションに脅威をもたらす。
本稿では,適応強度推定器と拡散モデルを用いて,プリスタンデータ分布を再構築できる新しい歪み認識型防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-29T14:32:43Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Adversarially robust deepfake media detection using fused convolutional
neural network predictions [79.00202519223662]
現在のディープフェイク検出システムは、目に見えないデータと戦っている。
ビデオから抽出した偽画像と実画像の分類には,CNN(Deep Convolutional Neural Network)モデルが3種類採用されている。
提案手法は96.5%の精度で最先端のモデルより優れている。
論文 参考訳(メタデータ) (2021-02-11T11:28:00Z) - Detecting COVID-19 from Breathing and Coughing Sounds using Deep Neural
Networks [68.8204255655161]
私たちは、Convolutional Neural Networksのアンサンブルを適応させて、スピーカーがCOVID-19に感染しているかどうかを分類します。
最終的には、74.9%のUnweighted Average Recall(UAR)、またはニューラルネットワークをアンサンブルすることで、ROC曲線(AUC)の80.7%を達成する。
論文 参考訳(メタデータ) (2020-12-29T01:14:17Z) - Audio Spoofing Verification using Deep Convolutional Neural Networks by
Transfer Learning [0.0]
本稿では,スプーフィング攻撃を検出するために,ディープ畳み込みニューラルネットワークに基づく音声分類器を提案する。
提案手法は,メル周波数スケールにおけるパワースペクトル密度の音響的時間周波数表現を用いた。
我々は、開発において0.9056%、論理アクセスシナリオの評価データセットにおいて5.32%の誤差率(EER)を達成した。
論文 参考訳(メタデータ) (2020-08-08T07:14:40Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。