論文の概要: MMCert: Provable Defense against Adversarial Attacks to Multi-modal Models
- arxiv url: http://arxiv.org/abs/2403.19080v3
- Date: Tue, 2 Apr 2024 02:05:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 11:22:19.577086
- Title: MMCert: Provable Defense against Adversarial Attacks to Multi-modal Models
- Title(参考訳): MMCert:マルチモーダルモデルに対する敵対的攻撃に対する防御の可能性
- Authors: Yanting Wang, Hongye Fu, Wei Zou, Jinyuan Jia,
- Abstract要約: 我々は,マルチモーダルモデルに対する敵攻撃に対する最初の認証された防御であるMCCertを提案する。
我々は,マルチモーダル道路セグメンテーションタスクとマルチモーダル道路セグメンテーションタスクと,マルチモーダル感情認識タスクの2つのベンチマークデータセットを用いて,MCCertを評価した。
- 参考スコア(独自算出の注目度): 34.802736332993994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different from a unimodal model whose input is from a single modality, the input (called multi-modal input) of a multi-modal model is from multiple modalities such as image, 3D points, audio, text, etc. Similar to unimodal models, many existing studies show that a multi-modal model is also vulnerable to adversarial perturbation, where an attacker could add small perturbation to all modalities of a multi-modal input such that the multi-modal model makes incorrect predictions for it. Existing certified defenses are mostly designed for unimodal models, which achieve sub-optimal certified robustness guarantees when extended to multi-modal models as shown in our experimental results. In our work, we propose MMCert, the first certified defense against adversarial attacks to a multi-modal model. We derive a lower bound on the performance of our MMCert under arbitrary adversarial attacks with bounded perturbations to both modalities (e.g., in the context of auto-driving, we bound the number of changed pixels in both RGB image and depth image). We evaluate our MMCert using two benchmark datasets: one for the multi-modal road segmentation task and the other for the multi-modal emotion recognition task. Moreover, we compare our MMCert with a state-of-the-art certified defense extended from unimodal models. Our experimental results show that our MMCert outperforms the baseline.
- Abstract(参考訳): 単一のモダリティから入力されるユニモーダルモデルとは異なり、マルチモーダルモデルの入力(マルチモーダル入力と呼ばれる)は、画像、3Dポイント、オーディオ、テキストなどの複数のモダリティからである。
ユニモーダルモデルと同様に、多くの既存研究では、攻撃者がマルチモーダルモデルが誤った予測を行うように、マルチモーダル入力のすべてのモダリティに小さな摂動を加えることができるような、敵の摂動にも弱いことが示されている。
既存の認証された防御は, 実験結果に示すようなマルチモーダルモデルに拡張した場合に, 準最適認証された堅牢性を保証するために設計されている。
本研究は,マルチモーダルモデルに対する敵攻撃に対する最初の認証された防御であるMCCertを提案する。
両モードに有界な摂動を持つ任意対向攻撃(例えば、自動運転の文脈では、RGB画像と深度画像の両方において変化画素の数)下でのMMCertの性能の低下を導出する。
我々は,マルチモーダル道路セグメンテーションタスクとマルチモーダル道路セグメンテーションタスクと,マルチモーダル感情認識タスクの2つのベンチマークデータセットを用いて,MCCertを評価した。
さらに,MMCertを,一様モデルから拡張した最先端の防御技術と比較した。
実験の結果,MMCertはベースラインよりも優れていた。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Modality Unified Attack for Omni-Modality Person Re-Identification [16.624135145315673]
そこで本研究では,異なるモダリティモデルを攻撃するために,敵対的ジェネレータを訓練するための新しいモダリティ統一攻撃法を提案する。
実験により,本手法は全モードリイドモデルに対して,55.9%,24.4%,49.0%,62.7%のmAP低下率で効果的に攻撃可能であることが示された。
論文 参考訳(メタデータ) (2025-01-22T09:54:43Z) - QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou [23.818456863262494]
異なる下流モデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズするための定量的なマルチモーダルフレームワークを導入する。
ダウンストリームタスクの利用における2つの難題に着想を得て、異なるダウンストリームモデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズする定量的なマルチモーダルフレームワークを導入する。
論文 参考訳(メタデータ) (2024-11-18T17:08:35Z) - Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。
TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。
またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文 参考訳(メタデータ) (2024-01-20T04:46:43Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - M^4I: Multi-modal Models Membership Inference [25.88958292839314]
本研究は、マルチモーダルモデルのプライバシー漏洩を、会員推論攻撃のレンズを通して研究する。
本稿では,M4I(MB)とFB(FB)の2つの攻撃手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T01:57:37Z) - Understanding and Measuring Robustness of Multimodal Learning [14.257147031953211]
MUROANと呼ばれるフレームワークを用いて,マルチモーダル学習の対角的堅牢性を総合的に測定する。
まず、MUROANにおけるマルチモーダルモデルの統一ビューを示し、マルチモーダルモデルの融合機構を鍵となる脆弱性として同定する。
次に,MUROANにおけるデカップリング攻撃(decoupling attack)と呼ばれる,マルチモーダルモデルの妥協を目的とした新しいタイプのマルチモーダル敵攻撃を導入する。
論文 参考訳(メタデータ) (2021-12-22T21:10:02Z) - Training Meta-Surrogate Model for Transferable Adversarial Attack [98.13178217557193]
クエリーを許可しない場合、ブラックボックスモデルに対する逆攻撃を考える。
この設定では、多くの手法が代理モデルを直接攻撃し、得られた敵の例をターゲットモデルを騙すために転送する。
メタサロゲートモデル(Meta-Surrogate Model:MSM)は,このモデルに対する攻撃が,他のモデルに容易に転送できることを示す。
論文 参考訳(メタデータ) (2021-09-05T03:27:46Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。