論文の概要: Sparse vs Contiguous Adversarial Pixel Perturbations in Multimodal Models: An Empirical Analysis
- arxiv url: http://arxiv.org/abs/2407.18251v1
- Date: Thu, 25 Jul 2024 17:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 13:09:36.635790
- Title: Sparse vs Contiguous Adversarial Pixel Perturbations in Multimodal Models: An Empirical Analysis
- Title(参考訳): マルチモーダルモデルにおけるスパース対相対レンズ摂動:経験的解析
- Authors: Cristian-Alexandru Botocan, Raphael Meier, Ljiljana Dolamic,
- Abstract要約: 我々は,前処理した入力摂動画像に対してL0-ノルム攻撃を行う。
攻撃対象は摂動画像面積の0.04%未満である。
画像領域の0.02%以下を摂動することで,99%の成功率を得ることができた。
- 参考スコア(独自算出の注目度): 11.897059430283225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing the robustness of multimodal models against adversarial examples is an important aspect for the safety of its users. We craft L0-norm perturbation attacks on the preprocessed input images. We launch them in a black-box setup against four multimodal models and two unimodal DNNs, considering both targeted and untargeted misclassification. Our attacks target less than 0.04% of perturbed image area and integrate different spatial positioning of perturbed pixels: sparse positioning and pixels arranged in different contiguous shapes (row, column, diagonal, and patch). To the best of our knowledge, we are the first to assess the robustness of three state-of-the-art multimodal models (ALIGN, AltCLIP, GroupViT) against different sparse and contiguous pixel distribution perturbations. The obtained results indicate that unimodal DNNs are more robust than multimodal models. Furthermore, models using CNN-based Image Encoder are more vulnerable than models with ViT - for untargeted attacks, we obtain a 99% success rate by perturbing less than 0.02% of the image area.
- Abstract(参考訳): マルチモーダルモデルの敵例に対する堅牢性を評価することは、ユーザの安全にとって重要な側面である。
我々は前処理した入力画像に対してL0-norm摂動攻撃を行う。
4つのマルチモーダルモデルと2つのユニモーダルDNNに対して、ターゲットと未ターゲットの両方の誤分類を考慮してブラックボックスで起動する。
我々の攻撃対象は摂動画像領域の0.04%未満であり、乱視された画素の空間的位置決めを異なる連続した形状(ロー、コラム、斜め、パッチ)で分割したスパース位置決めと画素に統合する。
我々の知る限り、我々は3つの最先端マルチモーダルモデル(ALIGN、AltCLIP、GroupViT)の様々なスパースおよび連続した画素分布摂動に対する堅牢性を初めて評価した。
その結果,DNNはマルチモーダルモデルよりも頑健であることが示唆された。
さらに、CNNベースの Image Encoder を用いたモデルでは、ViT を用いたモデルよりも脆弱であり、標的外攻撃では、画像領域の0.02%未満を摂動することで、99%の成功率を得る。
関連論文リスト
- To Make Yourself Invisible with Adversarial Semantic Contours [47.755808439588094]
逆セマンティック・コンター(英: Adversarial Semantic Contour、ASC)は、物体の輪郭の前に騙されたスパース・アタックのベイズ的定式化の見積もりである。
ASCは、異なるアーキテクチャを持つ9つの近代検出器の予測を損なう可能性があることを示す。
我々は、様々なアーキテクチャを持つ物体検出器の共通弱点である輪郭について注意を払って結論付けた。
論文 参考訳(メタデータ) (2023-03-01T07:22:39Z) - Benchmarking Robustness of Multimodal Image-Text Models under
Distribution Shift [50.64474103506595]
本稿では,5つのタスクに対する共通の摂動下での12のオープンソース画像テキストモデルの堅牢性について検討する。
文字レベルの摂動はテキストの最も深刻な分布シフトであり、ズームボケは画像データにとって最も深刻なシフトである。
論文 参考訳(メタデータ) (2022-12-15T18:52:03Z) - General Adversarial Defense Against Black-box Attacks via Pixel Level
and Feature Level Distribution Alignments [75.58342268895564]
我々は,DGN(Deep Generative Networks)と新たなトレーニング機構を併用して,分散ギャップを解消する。
トレーニングされたDGNは、画素値の変換により、敵サンプルとターゲットDNNのクリーンな分布を整列する。
我々の戦略はブラックボックス攻撃に対するその独特な効果と汎用性を実証している。
論文 参考訳(メタデータ) (2022-12-11T01:51:31Z) - Frequency Domain Model Augmentation for Adversarial Attack [91.36850162147678]
ブラックボックス攻撃の場合、代用モデルと被害者モデルの間のギャップは通常大きい。
そこで本研究では,通常の訓練モデルと防衛モデルの両方に対して,より伝達可能な対角線モデルを構築するための新しいスペクトルシミュレーション攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-12T08:26:21Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Cross-Modal Transferable Adversarial Attacks from Images to Videos [82.0745476838865]
近年の研究では、一方のホワイトボックスモデルで手作りされた敵の例は、他のブラックボックスモデルを攻撃するために使用できることが示されている。
本稿では,イメージ・トゥ・ビデオ(I2V)攻撃と呼ばれる,シンプルだが効果的なクロスモーダル・アタック手法を提案する。
I2Vは、事前訓練された画像モデルの特徴と良質な例とのコサイン類似性を最小化して、対向フレームを生成する。
論文 参考訳(メタデータ) (2021-12-10T08:19:03Z) - Adversarial Attacks on Camera-LiDAR Models for 3D Car Detection [15.323682536206574]
ほとんどの自動運転車は知覚のためにLiDARとRGBカメラセンサーを使っている。
深層ニューラルネットワーク(DNN)は、3D検出で最先端の性能を達成しました。
我々は,各タイプに対する普遍的かつ物理的に実現可能な敵攻撃を提案し,その脆弱性を攻撃と対比する。
論文 参考訳(メタデータ) (2021-03-17T05:24:48Z) - The Effects of Image Distribution and Task on Adversarial Robustness [4.597864989500202]
モデルの対比堅牢性を測定するために、曲線(AUC)メトリック下の領域への適応を提案する。
我々は、MNIST、CIFAR-10、およびFusionデータセットのモデルにこの逆の堅牢性メトリックを使用した。
論文 参考訳(メタデータ) (2021-02-21T07:15:50Z) - Generating Black-Box Adversarial Examples in Sparse Domain [2.879036956042183]
ブラックボックスの敵対攻撃は、攻撃者がモデルやトレーニングデータセットに関する知識を持っていない攻撃の一種です。
画像の最も重要な情報が観察できる一方で,スパース領域においてブラックボックス攻撃を発生させる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-22T20:45:33Z) - Patch-wise++ Perturbation for Adversarial Targeted Attacks [132.58673733817838]
トランスファビリティの高い対比例の作成を目的としたパッチワイズ反復法(PIM)を提案する。
具体的には、各イテレーションのステップサイズに増幅係数を導入し、$epsilon$-constraintをオーバーフローする1ピクセルの全体的な勾配が、その周辺領域に適切に割り当てられる。
現在の攻撃方法と比較して、防御モデルでは35.9%、通常訓練されたモデルでは32.7%、成功率を大幅に向上させた。
論文 参考訳(メタデータ) (2020-12-31T08:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。