Fugu-MT 論文翻訳(概要): MMCert: Provable Defense against Adversarial Attacks to Multi-modal Models

論文の概要: MMCert: Provable Defense against Adversarial Attacks to Multi-modal Models

arxiv url: http://arxiv.org/abs/2403.19080v3
Date: Tue, 2 Apr 2024 02:05:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 11:22:19.577086
Title: MMCert: Provable Defense against Adversarial Attacks to Multi-modal Models
Title（参考訳）: MMCert:マルチモーダルモデルに対する敵対的攻撃に対する防御の可能性
Authors: Yanting Wang, Hongye Fu, Wei Zou, Jinyuan Jia,
Abstract要約: 我々は,マルチモーダルモデルに対する敵攻撃に対する最初の認証された防御であるMCCertを提案する。我々は,マルチモーダル道路セグメンテーションタスクとマルチモーダル道路セグメンテーションタスクと,マルチモーダル感情認識タスクの2つのベンチマークデータセットを用いて,MCCertを評価した。
参考スコア（独自算出の注目度）: 34.802736332993994
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Different from a unimodal model whose input is from a single modality, the input (called multi-modal input) of a multi-modal model is from multiple modalities such as image, 3D points, audio, text, etc. Similar to unimodal models, many existing studies show that a multi-modal model is also vulnerable to adversarial perturbation, where an attacker could add small perturbation to all modalities of a multi-modal input such that the multi-modal model makes incorrect predictions for it. Existing certified defenses are mostly designed for unimodal models, which achieve sub-optimal certified robustness guarantees when extended to multi-modal models as shown in our experimental results. In our work, we propose MMCert, the first certified defense against adversarial attacks to a multi-modal model. We derive a lower bound on the performance of our MMCert under arbitrary adversarial attacks with bounded perturbations to both modalities (e.g., in the context of auto-driving, we bound the number of changed pixels in both RGB image and depth image). We evaluate our MMCert using two benchmark datasets: one for the multi-modal road segmentation task and the other for the multi-modal emotion recognition task. Moreover, we compare our MMCert with a state-of-the-art certified defense extended from unimodal models. Our experimental results show that our MMCert outperforms the baseline.
Abstract（参考訳）: 単一のモダリティから入力されるユニモーダルモデルとは異なり、マルチモーダルモデルの入力(マルチモーダル入力と呼ばれる)は、画像、3Dポイント、オーディオ、テキストなどの複数のモダリティからである。ユニモーダルモデルと同様に、多くの既存研究では、攻撃者がマルチモーダルモデルが誤った予測を行うように、マルチモーダル入力のすべてのモダリティに小さな摂動を加えることができるような、敵の摂動にも弱いことが示されている。既存の認証された防御は, 実験結果に示すようなマルチモーダルモデルに拡張した場合に, 準最適認証された堅牢性を保証するために設計されている。本研究は,マルチモーダルモデルに対する敵攻撃に対する最初の認証された防御であるMCCertを提案する。両モードに有界な摂動を持つ任意対向攻撃(例えば、自動運転の文脈では、RGB画像と深度画像の両方において変化画素の数)下でのMMCertの性能の低下を導出する。我々は,マルチモーダル道路セグメンテーションタスクとマルチモーダル道路セグメンテーションタスクと,マルチモーダル感情認識タスクの2つのベンチマークデータセットを用いて,MCCertを評価した。さらに,MMCertを,一様モデルから拡張した最先端の防御技術と比較した。実験の結果,MMCertはベースラインよりも優れていた。

関連論文リスト

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。 NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文参考訳（メタデータ） (2025-10-15T16:25:18Z)
MultiSHAP: A Shapley-Based Framework for Explaining Cross-Modal Interactions in Multimodal AI Models [5.011371514152517]
マルチモーダルAIモデルは、視覚や言語など、複数のモーダルからの情報の統合を必要とするタスクにおいて、目覚ましいパフォーマンスを達成した。マルチモーダルAIモデルにおけるクロスモーダルインタラクションを説明するには、依然として大きな課題である。
論文参考訳（メタデータ） (2025-08-01T12:19:18Z)
MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models [101.70140132374307]
MMFM(Multimodal foundation model)は、自律運転、ヘルスケア、バーチャルアシスタントなど、様々なアプリケーションにおいて重要な役割を果たす。既存のマルチモーダルモデルのベンチマークは、主にこれらのモデルの有用性を評価するか、公平性やプライバシといった限られた視点にのみフォーカスする。 MMFMの安全性と信頼性を総合的に評価するために,最初の統合プラットフォームMMDT(Multimodal DecodingTrust)を提案する。
論文参考訳（メタデータ） (2025-03-19T01:59:44Z)
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文参考訳（メタデータ） (2025-03-13T12:03:37Z)
MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
Modality Unified Attack for Omni-Modality Person Re-Identification [16.624135145315673]
そこで本研究では,異なるモダリティモデルを攻撃するために,敵対的ジェネレータを訓練するための新しいモダリティ統一攻撃法を提案する。実験により,本手法は全モードリイドモデルに対して,55.9%,24.4%,49.0%,62.7%のmAP低下率で効果的に攻撃可能であることが示された。
論文参考訳（メタデータ） (2025-01-22T09:54:43Z)
QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou [23.818456863262494]
異なる下流モデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズするための定量的なマルチモーダルフレームワークを導入する。ダウンストリームタスクの利用における2つの難題に着想を得て、異なるダウンストリームモデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズする定量的なマルチモーダルフレームワークを導入する。
論文参考訳（メタデータ） (2024-11-18T17:08:35Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。 TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文参考訳（メタデータ） (2024-01-20T04:46:43Z)
Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文参考訳（メタデータ） (2023-12-20T18:59:58Z)
Improving Discriminative Multi-Modal Learning with Large-Scale Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。 MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文参考訳（メタデータ） (2023-10-08T15:01:54Z)
FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。 FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-05-05T04:28:48Z)
MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spoofing [3.3031006227198003]
マルチモーダルデータの助けを借りて任意のモーダルアタックの性能を向上させることを目的としたモダリティ非依存型視覚変換器(MA-ViT)を提案する。具体的には、MA-ViTは早期融合を採用し、利用可能なすべてのトレーニングモダリティデータを集約し、任意のモダリティサンプルの柔軟なテストを可能にする。実験により、MA-ViTでトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-04-15T13:03:44Z)
M^4I: Multi-modal Models Membership Inference [25.88958292839314]
本研究は、マルチモーダルモデルのプライバシー漏洩を、会員推論攻撃のレンズを通して研究する。本稿では,M4I(MB)とFB(FB)の2つの攻撃手法を提案する。
論文参考訳（メタデータ） (2022-09-15T01:57:37Z)
Understanding and Measuring Robustness of Multimodal Learning [14.257147031953211]
MUROANと呼ばれるフレームワークを用いて,マルチモーダル学習の対角的堅牢性を総合的に測定する。まず、MUROANにおけるマルチモーダルモデルの統一ビューを示し、マルチモーダルモデルの融合機構を鍵となる脆弱性として同定する。次に,MUROANにおけるデカップリング攻撃(decoupling attack)と呼ばれる,マルチモーダルモデルの妥協を目的とした新しいタイプのマルチモーダル敵攻撃を導入する。
論文参考訳（メタデータ） (2021-12-22T21:10:02Z)
Training Meta-Surrogate Model for Transferable Adversarial Attack [98.13178217557193]
クエリーを許可しない場合、ブラックボックスモデルに対する逆攻撃を考える。この設定では、多くの手法が代理モデルを直接攻撃し、得られた敵の例をターゲットモデルを騙すために転送する。メタサロゲートモデル(Meta-Surrogate Model:MSM)は,このモデルに対する攻撃が,他のモデルに容易に転送できることを示す。
論文参考訳（メタデータ） (2021-09-05T03:27:46Z)
InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文参考訳（メタデータ） (2020-03-30T03:13:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。