論文の概要: MMCert: Provable Defense against Adversarial Attacks to Multi-modal Models
- arxiv url: http://arxiv.org/abs/2403.19080v3
- Date: Tue, 2 Apr 2024 02:05:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 11:22:19.577086
- Title: MMCert: Provable Defense against Adversarial Attacks to Multi-modal Models
- Title(参考訳): MMCert:マルチモーダルモデルに対する敵対的攻撃に対する防御の可能性
- Authors: Yanting Wang, Hongye Fu, Wei Zou, Jinyuan Jia,
- Abstract要約: 我々は,マルチモーダルモデルに対する敵攻撃に対する最初の認証された防御であるMCCertを提案する。
我々は,マルチモーダル道路セグメンテーションタスクとマルチモーダル道路セグメンテーションタスクと,マルチモーダル感情認識タスクの2つのベンチマークデータセットを用いて,MCCertを評価した。
- 参考スコア(独自算出の注目度): 34.802736332993994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different from a unimodal model whose input is from a single modality, the input (called multi-modal input) of a multi-modal model is from multiple modalities such as image, 3D points, audio, text, etc. Similar to unimodal models, many existing studies show that a multi-modal model is also vulnerable to adversarial perturbation, where an attacker could add small perturbation to all modalities of a multi-modal input such that the multi-modal model makes incorrect predictions for it. Existing certified defenses are mostly designed for unimodal models, which achieve sub-optimal certified robustness guarantees when extended to multi-modal models as shown in our experimental results. In our work, we propose MMCert, the first certified defense against adversarial attacks to a multi-modal model. We derive a lower bound on the performance of our MMCert under arbitrary adversarial attacks with bounded perturbations to both modalities (e.g., in the context of auto-driving, we bound the number of changed pixels in both RGB image and depth image). We evaluate our MMCert using two benchmark datasets: one for the multi-modal road segmentation task and the other for the multi-modal emotion recognition task. Moreover, we compare our MMCert with a state-of-the-art certified defense extended from unimodal models. Our experimental results show that our MMCert outperforms the baseline.
- Abstract(参考訳): 単一のモダリティから入力されるユニモーダルモデルとは異なり、マルチモーダルモデルの入力(マルチモーダル入力と呼ばれる)は、画像、3Dポイント、オーディオ、テキストなどの複数のモダリティからである。
ユニモーダルモデルと同様に、多くの既存研究では、攻撃者がマルチモーダルモデルが誤った予測を行うように、マルチモーダル入力のすべてのモダリティに小さな摂動を加えることができるような、敵の摂動にも弱いことが示されている。
既存の認証された防御は, 実験結果に示すようなマルチモーダルモデルに拡張した場合に, 準最適認証された堅牢性を保証するために設計されている。
本研究は,マルチモーダルモデルに対する敵攻撃に対する最初の認証された防御であるMCCertを提案する。
両モードに有界な摂動を持つ任意対向攻撃(例えば、自動運転の文脈では、RGB画像と深度画像の両方において変化画素の数)下でのMMCertの性能の低下を導出する。
我々は,マルチモーダル道路セグメンテーションタスクとマルチモーダル道路セグメンテーションタスクと,マルチモーダル感情認識タスクの2つのベンチマークデータセットを用いて,MCCertを評価した。
さらに,MMCertを,一様モデルから拡張した最先端の防御技術と比較した。
実験の結果,MMCertはベースラインよりも優れていた。
関連論文リスト
- EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Partially Recentralization Softmax Loss for Vision-Language Models Robustness [8.78222772167501]
事前学習したマルチモーダルモデルの損失関数を変更することで得られる対向的ロバスト性について検討する。
実験の結果、訓練済みモデルの微調整後、一般的な攻撃に対して、逆方向の頑健性を大幅に改善できることが判明した。
論文 参考訳(メタデータ) (2024-02-06T01:44:38Z) - Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。
TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。
またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文 参考訳(メタデータ) (2024-01-20T04:46:43Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spoofing [3.3031006227198003]
マルチモーダルデータの助けを借りて任意のモーダルアタックの性能を向上させることを目的としたモダリティ非依存型視覚変換器(MA-ViT)を提案する。
具体的には、MA-ViTは早期融合を採用し、利用可能なすべてのトレーニングモダリティデータを集約し、任意のモダリティサンプルの柔軟なテストを可能にする。
実験により、MA-ViTでトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-04-15T13:03:44Z) - M^4I: Multi-modal Models Membership Inference [25.88958292839314]
本研究は、マルチモーダルモデルのプライバシー漏洩を、会員推論攻撃のレンズを通して研究する。
本稿では,M4I(MB)とFB(FB)の2つの攻撃手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T01:57:37Z) - Understanding and Measuring Robustness of Multimodal Learning [14.257147031953211]
MUROANと呼ばれるフレームワークを用いて,マルチモーダル学習の対角的堅牢性を総合的に測定する。
まず、MUROANにおけるマルチモーダルモデルの統一ビューを示し、マルチモーダルモデルの融合機構を鍵となる脆弱性として同定する。
次に,MUROANにおけるデカップリング攻撃(decoupling attack)と呼ばれる,マルチモーダルモデルの妥協を目的とした新しいタイプのマルチモーダル敵攻撃を導入する。
論文 参考訳(メタデータ) (2021-12-22T21:10:02Z) - Training Meta-Surrogate Model for Transferable Adversarial Attack [98.13178217557193]
クエリーを許可しない場合、ブラックボックスモデルに対する逆攻撃を考える。
この設定では、多くの手法が代理モデルを直接攻撃し、得られた敵の例をターゲットモデルを騙すために転送する。
メタサロゲートモデル(Meta-Surrogate Model:MSM)は,このモデルに対する攻撃が,他のモデルに容易に転送できることを示す。
論文 参考訳(メタデータ) (2021-09-05T03:27:46Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。