論文の概要: Can audio-visual integration strengthen robustness under multimodal
attacks?
- arxiv url: http://arxiv.org/abs/2104.02000v1
- Date: Mon, 5 Apr 2021 16:46:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 17:57:44.411900
- Title: Can audio-visual integration strengthen robustness under multimodal
attacks?
- Title(参考訳): マルチモーダルアタックにおける音声・視覚統合は堅牢性を高めるか?
- Authors: Yapeng Tian and Chenliang Xu
- Abstract要約: マルチモーダルな敵対攻撃に対する視聴覚イベント認識タスクをプロキシとして使用し、視聴覚学習の堅牢性を調査します。
我々は、音声と視覚の統合が認識を強化するかどうかを調べるために、オーディオ、視覚、両方のモダリティを攻撃します。
攻撃下のマルチモーダル相互作用を解釈するために,弱教師付き音源定位モデルを学ぶ。
- 参考スコア(独自算出の注目度): 47.791552254215745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose to make a systematic study on machines multisensory
perception under attacks. We use the audio-visual event recognition task
against multimodal adversarial attacks as a proxy to investigate the robustness
of audio-visual learning. We attack audio, visual, and both modalities to
explore whether audio-visual integration still strengthens perception and how
different fusion mechanisms affect the robustness of audio-visual models. For
interpreting the multimodal interactions under attacks, we learn a
weakly-supervised sound source visual localization model to localize sounding
regions in videos. To mitigate multimodal attacks, we propose an audio-visual
defense approach based on an audio-visual dissimilarity constraint and external
feature memory banks. Extensive experiments demonstrate that audio-visual
models are susceptible to multimodal adversarial attacks; audio-visual
integration could decrease the model robustness rather than strengthen under
multimodal attacks; even a weakly-supervised sound source visual localization
model can be successfully fooled; our defense method can improve the
invulnerability of audio-visual networks without significantly sacrificing
clean model performance.
- Abstract(参考訳): 本稿では,攻撃下の機械の多感覚知覚を体系的に研究することを提案する。
本研究では,マルチモーダル攻撃に対する視聴覚イベント認識タスクをプロキシとして使用し,視聴覚学習のロバスト性を検討する。
我々は、音声と視覚の統合が認識を強化し、異なる融合機構がオーディオと視覚モデルの堅牢性にどのように影響するかを調べるために、オーディオ、視覚、両方のモダリティを攻撃する。
攻撃下でのマルチモーダルな相互作用を解釈するために,映像中の音声領域をローカライズする弱教師付き音源視覚定位モデルを学習する。
マルチモーダル攻撃を軽減するため,音声-視覚的相似性制約と外部特徴記憶バンクに基づく音声-視覚的防御手法を提案する。
広範囲な実験により、視聴覚モデルはマルチモーダル攻撃の影響を受けやすいこと、視聴覚統合はマルチモーダル攻撃で強化されるよりもモデルの堅牢性が低下すること、弱い教師付き音源の視覚定位モデルさえもうまく騙すことができること、防御手法は、クリーンなモデル性能を犠牲にすることなく、視聴覚ネットワークの不可避性を改善することができること、などが示されている。
関連論文リスト
- Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - On Robustness to Missing Video for Audiovisual Speech Recognition [17.261450158359402]
ビデオフレームの欠落は、単一モードのオーディオのみのモデルよりも、オーディオ視覚モデルの性能を劣化させるべきではないことを示す。
堅牢性に関する主張を正確かつテスト可能な方法で評価できるフレームワークを導入します。
論文 参考訳(メタデータ) (2023-12-13T05:32:52Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Modality-Aware Contrastive Instance Learning with Self-Distillation for
Weakly-Supervised Audio-Visual Violence Detection [14.779452690026144]
弱教師付き音声視覚学習のための自己蒸留(MACIL-SD)戦略を用いたモード認識型コントラスト学習を提案する。
我々のフレームワークは、大規模なXD-Violenceデータセットにおいて、より少ない複雑さで従来の手法より優れています。
論文 参考訳(メタデータ) (2022-07-12T12:42:21Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z) - Adversarial attacks on audio source separation [26.717340178640498]
音源分離問題に対する様々な逆攻撃手法を再構成する。
そこで本研究では,非知覚的対向雑音を得るための簡易かつ効果的な正則化法を提案する。
また,ブラックボックス攻撃に対するソース分離モデルの堅牢性を示す。
論文 参考訳(メタデータ) (2020-10-07T05:02:21Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Curriculum Audiovisual Learning [113.20920928789867]
本稿では,ソフトクラスタリングモジュールを音響・視覚コンテンツ検出装置として導入するフレキシブル・オーディオビジュアル・モデルを提案する。
音声視覚学習の難しさを軽減するため,簡単なシーンから複雑なシーンまでモデルを訓練する新しい学習戦略を提案する。
本手法は,外的視覚的監督に言及することなく,音の分離において同等の性能を示す。
論文 参考訳(メタデータ) (2020-01-26T07:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。