論文の概要: Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection
- arxiv url: http://arxiv.org/abs/2210.00753v1
- Date: Mon, 3 Oct 2022 08:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 18:04:11.869603
- Title: Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection
- Title(参考訳): Push-Pull: 音声-ビジュアルアクティブスピーカ検出のための対向ロバスト性の特徴付け
- Authors: Xuanjun Chen, Haibin Wu, Helen Meng, Hung-yi Lee, Jyh-Shing Roger Jang
- Abstract要約: 我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
- 参考スコア(独自算出の注目度): 88.74863771919445
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Audio-visual active speaker detection (AVASD) is well-developed, and now is
an indispensable front-end for several multi-modal applications. However, to
the best of our knowledge, the adversarial robustness of AVASD models hasn't
been investigated, not to mention the effective defense against such attacks.
In this paper, we are the first to reveal the vulnerability of AVASD models
under audio-only, visual-only, and audio-visual adversarial attacks through
extensive experiments. What's more, we also propose a novel audio-visual
interaction loss (AVIL) for making attackers difficult to find feasible
adversarial examples under an allocated attack budget. The loss aims at pushing
the inter-class embeddings to be dispersed, namely non-speech and speech
clusters, sufficiently disentangled, and pulling the intra-class embeddings as
close as possible to keep them compact. Experimental results show the AVIL
outperforms the adversarial training by 33.14 mAP (%) under multi-modal
attacks.
- Abstract(参考訳): audio-visual active speaker detection (avasd) はよく開発されており、現在では複数のマルチモーダルアプリケーションにとって必須のフロントエンドである。
しかしながら、我々の知る限りでは、avasdモデルの敵対的堅牢性は調査されておらず、そのような攻撃に対する効果的な防御は言及されていない。
本稿では, avasdモデルの脆弱性を, 音声のみ, 視覚のみ, および音声対向攻撃において, 広範囲な実験により明らかにする。
さらに,アタッカーがアタック予算を割った場合,対戦相手の発見が困難になるような,新たな音声・視覚インタラクション損失(AVIL)も提案する。
この損失は、クラス間の埋め込み、すなわち非音声と音声のクラスタを分散させ、十分に切り離され、クラス内の埋め込みを可能な限り近く引っ張ってコンパクトに保つことを目的としている。
実験の結果、AVILはマルチモーダルアタックにおいて33.14 mAP(%)の対向訓練に優れていた。
関連論文リスト
- Adversarial Robustness of Deep Reinforcement Learning based Dynamic
Recommender Systems [50.758281304737444]
本稿では,強化学習に基づく対話型レコメンデーションシステムにおける敵例の探索と攻撃検出を提案する。
まず、入力に摂動を加え、カジュアルな要因に介入することで、異なる種類の逆例を作成する。
そこで,本研究では,人工データに基づく深層学習に基づく分類器による潜在的攻撃を検出することにより,推薦システムを強化した。
論文 参考訳(メタデータ) (2021-12-02T04:12:24Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - On the Exploitability of Audio Machine Learning Pipelines to
Surreptitious Adversarial Examples [19.433014444284595]
我々は、人間とパイプラインの制御を回避できる新たな攻撃のクラスである、余計な敵の例を紹介した。
この攻撃は、従来の非受容性を目的とした攻撃よりも過剰なオーディオサンプルを生成する。
論文 参考訳(メタデータ) (2021-08-03T16:21:08Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Audio Attacks and Defenses against AED Systems - A Practical Study [2.365611283869544]
我々は,ディープラーニングに基づく音声イベント検出システム(AED)を,敵の例による回避攻撃に対して評価する。
本研究では,背景雑音と白色雑音という2つの異なる種類のノイズを用いて,敵対者が検出を避けるために使用する音声対向例を生成する。
音声入力に適用した場合,これらの対策が有効であることを示す。
論文 参考訳(メタデータ) (2021-06-14T13:42:49Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - Can audio-visual integration strengthen robustness under multimodal
attacks? [47.791552254215745]
マルチモーダルな敵対攻撃に対する視聴覚イベント認識タスクをプロキシとして使用し、視聴覚学習の堅牢性を調査します。
我々は、音声と視覚の統合が認識を強化するかどうかを調べるために、オーディオ、視覚、両方のモダリティを攻撃します。
攻撃下のマルチモーダル相互作用を解釈するために,弱教師付き音源定位モデルを学ぶ。
論文 参考訳(メタデータ) (2021-04-05T16:46:45Z) - Adversarial Attack and Defense Strategies for Deep Speaker Recognition
Systems [44.305353565981015]
本稿では, 深層話者認識システムに対する最先端の敵攻撃について考察し, 強力な防御手法を対策として用いた。
実験により、話者認識システムは敵攻撃に弱いことが示され、最も強い攻撃はシステムの精度を94%から0%に下げることができる。
論文 参考訳(メタデータ) (2020-08-18T00:58:19Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。