論文の概要: Adversarial Evaluation of Multimodal Models under Realistic Gray Box
Assumption
- arxiv url: http://arxiv.org/abs/2011.12902v3
- Date: Wed, 9 Jun 2021 16:23:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 02:20:28.473468
- Title: Adversarial Evaluation of Multimodal Models under Realistic Gray Box
Assumption
- Title(参考訳): 現実的なグレーボックス推定に基づくマルチモーダルモデルの逆評価
- Authors: Ivan Evtimov, Russel Howes, Brian Dolhansky, Hamed Firooz, Cristian
Canton Ferrer
- Abstract要約: 本研究は, 対人的脅威に対するマルチモーダル(画像+テキスト)モデルの脆弱性を, ユニモーダル(画像またはテキストのみ)モデルに関する以前の文献で論じられたものと同様に検証する。
モデル知識とアクセスに関する現実的な仮定を導入し、これらの仮定が、敵攻撃に関する現在の文献に共通する標準的な「ブラックボックス」/「ホワイトボックス」二分法とどのように異なるかについて議論する。
- 参考スコア(独自算出の注目度): 8.97147332560535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work examines the vulnerability of multimodal (image + text) models to
adversarial threats similar to those discussed in previous literature on
unimodal (image- or text-only) models. We introduce realistic assumptions of
partial model knowledge and access, and discuss how these assumptions differ
from the standard "black-box"/"white-box" dichotomy common in current
literature on adversarial attacks. Working under various levels of these
"gray-box" assumptions, we develop new attack methodologies unique to
multimodal classification and evaluate them on the Hateful Memes Challenge
classification task. We find that attacking multiple modalities yields stronger
attacks than unimodal attacks alone (inducing errors in up to 73% of cases),
and that the unimodal image attacks on multimodal classifiers we explored were
stronger than character-based text augmentation attacks (inducing errors on
average in 45% and 30% of cases, respectively).
- Abstract(参考訳): 本研究は, 対人的脅威に対するマルチモーダル(画像 + テキスト)モデルの脆弱性を, ユニモーダル(画像またはテキストのみ)モデルに関する以前の文献で論じられたものと類似している。
本稿では,部分モデル知識とアクセスの現実的な仮定を紹介し,それらの仮定が,現在の敵攻撃に関する文献で一般的な「ブラックボックス」/「ホワイトボックス」二分法とどのように異なるかについて議論する。
これらの「グレーボックス」仮定の様々なレベルで作業し,マルチモーダル分類に特有の新たな攻撃手法を開発し,ヘイトフルミームチャレンジ分類タスクで評価する。
我々は,複数のモダリティを攻撃した場合,単様攻撃のみよりも攻撃が強く(最大73%のケースでエラーを誘発する),マルチモーダル分類器に対する単様画像攻撃は文字ベースのテキスト増補攻撃(平均45%,30%のケースでエラーを誘発する)よりも強いことが判明した。
関連論文リスト
- BadCM: Invisible Backdoor Attack Against Cross-Modal Learning [110.37205323355695]
クロスモーダルバックドアにおけるパズルの欠片を補うために,新たな両面バックドアを導入する。
BadCMは、1つの統合されたフレームワーク内で多様なクロスモーダルアタックのために意図的に設計された最初の目に見えないバックドアメソッドである。
論文 参考訳(メタデータ) (2024-10-03T03:51:53Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - MMCert: Provable Defense against Adversarial Attacks to Multi-modal Models [34.802736332993994]
我々は,マルチモーダルモデルに対する敵攻撃に対する最初の認証された防御であるMCCertを提案する。
我々は,マルチモーダル道路セグメンテーションタスクとマルチモーダル道路セグメンテーションタスクと,マルチモーダル感情認識タスクの2つのベンチマークデータセットを用いて,MCCertを評価した。
論文 参考訳(メタデータ) (2024-03-28T01:05:06Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Understanding the Robustness of Randomized Feature Defense Against
Query-Based Adversarial Attacks [23.010308600769545]
ディープニューラルネットワークは、元の画像に近いサンプルを見つける敵の例に弱いが、モデルを誤分類させる可能性がある。
モデル中間層における隠れた特徴にランダムノイズを付加することにより,ブラックボックス攻撃に対する簡易かつ軽量な防御法を提案する。
本手法は,スコアベースと決定ベースの両方のブラックボックス攻撃に対するモデルのレジリエンスを効果的に向上させる。
論文 参考訳(メタデータ) (2023-10-01T03:53:23Z) - Minimizing Maximum Model Discrepancy for Transferable Black-box Targeted
Attacks [30.863450425927613]
モデル差分の観点から,ブラックボックスの標的攻撃問題について検討する。
我々は,ブラックボックス攻撃に対する一般化誤差を提示し,攻撃の成功を保証するための厳密な理論的解析を行う。
我々は理論解析に基づいてブラックボックス攻撃のための新しいアルゴリズムを導出する。
論文 参考訳(メタデータ) (2022-12-18T08:19:08Z) - Data Poisoning Attacks Against Multimodal Encoders [24.02062380303139]
視覚と言語の両方において多モーダルモデルに対する中毒攻撃について検討する。
攻撃を緩和するため,前訓練と後訓練の両方の防御策を提案する。
論文 参考訳(メタデータ) (2022-09-30T06:50:08Z) - Cross-Modal Transferable Adversarial Attacks from Images to Videos [82.0745476838865]
近年の研究では、一方のホワイトボックスモデルで手作りされた敵の例は、他のブラックボックスモデルを攻撃するために使用できることが示されている。
本稿では,イメージ・トゥ・ビデオ(I2V)攻撃と呼ばれる,シンプルだが効果的なクロスモーダル・アタック手法を提案する。
I2Vは、事前訓練された画像モデルの特徴と良質な例とのコサイン類似性を最小化して、対向フレームを生成する。
論文 参考訳(メタデータ) (2021-12-10T08:19:03Z) - Multi-granularity Textual Adversarial Attack with Behavior Cloning [4.727534308759158]
我々は,被害者モデルに対するクエリが少なく,高品質な対数サンプルを生成するためのマルチグラムYアタックモデルMAYAを提案する。
2つの異なるブラックボックス攻撃設定と3つのベンチマークデータセットでBiLSTM,BERT,RoBERTaを攻撃し、攻撃モデルを評価するための総合的な実験を行った。
論文 参考訳(メタデータ) (2021-09-09T15:46:45Z) - Training Meta-Surrogate Model for Transferable Adversarial Attack [98.13178217557193]
クエリーを許可しない場合、ブラックボックスモデルに対する逆攻撃を考える。
この設定では、多くの手法が代理モデルを直接攻撃し、得られた敵の例をターゲットモデルを騙すために転送する。
メタサロゲートモデル(Meta-Surrogate Model:MSM)は,このモデルに対する攻撃が,他のモデルに容易に転送できることを示す。
論文 参考訳(メタデータ) (2021-09-05T03:27:46Z) - "What's in the box?!": Deflecting Adversarial Attacks by Randomly
Deploying Adversarially-Disjoint Models [71.91835408379602]
敵の例は長い間、機械学習モデルに対する真の脅威と考えられてきた。
我々は、従来のホワイトボックスやブラックボックスの脅威モデルを超えた、配置ベースの防衛パラダイムを提案する。
論文 参考訳(メタデータ) (2021-02-09T20:07:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。