論文の概要: Understanding and Measuring Robustness of Multimodal Learning
- arxiv url: http://arxiv.org/abs/2112.12792v2
- Date: Tue, 28 Dec 2021 16:32:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-02 09:26:55.695289
- Title: Understanding and Measuring Robustness of Multimodal Learning
- Title(参考訳): マルチモーダル学習のロバスト性に関する理解と測定
- Authors: Nishant Vishwamitra, Hongxin Hu, Ziming Zhao, Long Cheng and Feng Luo
- Abstract要約: MUROANと呼ばれるフレームワークを用いて,マルチモーダル学習の対角的堅牢性を総合的に測定する。
まず、MUROANにおけるマルチモーダルモデルの統一ビューを示し、マルチモーダルモデルの融合機構を鍵となる脆弱性として同定する。
次に,MUROANにおけるデカップリング攻撃(decoupling attack)と呼ばれる,マルチモーダルモデルの妥協を目的とした新しいタイプのマルチモーダル敵攻撃を導入する。
- 参考スコア(独自算出の注目度): 14.257147031953211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The modern digital world is increasingly becoming multimodal. Although
multimodal learning has recently revolutionized the state-of-the-art
performance in multimodal tasks, relatively little is known about the
robustness of multimodal learning in an adversarial setting. In this paper, we
introduce a comprehensive measurement of the adversarial robustness of
multimodal learning by focusing on the fusion of input modalities in multimodal
models, via a framework called MUROAN (MUltimodal RObustness ANalyzer). We
first present a unified view of multimodal models in MUROAN and identify the
fusion mechanism of multimodal models as a key vulnerability. We then introduce
a new type of multimodal adversarial attacks called decoupling attack in MUROAN
that aims to compromise multimodal models by decoupling their fused modalities.
We leverage the decoupling attack of MUROAN to measure several state-of-the-art
multimodal models and find that the multimodal fusion mechanism in all these
models is vulnerable to decoupling attacks. We especially demonstrate that, in
the worst case, the decoupling attack of MUROAN achieves an attack success rate
of 100% by decoupling just 1.16% of the input space. Finally, we show that
traditional adversarial training is insufficient to improve the robustness of
multimodal models with respect to decoupling attacks. We hope our findings
encourage researchers to pursue improving the robustness of multimodal
learning.
- Abstract(参考訳): 現代のデジタル世界はますますマルチモーダルになりつつある。
マルチモーダル学習は最近、マルチモーダルタスクにおける最先端のパフォーマンスに革命をもたらしたが、逆境環境でのマルチモーダル学習の堅牢性については比較的知られていない。
本稿では、MUROAN(MUltimodal RObustness ANalyzer)と呼ばれるフレームワークを用いて、マルチモーダルモデルにおける入力モダリティの融合に着目し、マルチモーダル学習の対角ロバスト性に関する総合的な測定を行う。
まず、MUROANにおけるマルチモーダルモデルの統一ビューを示し、マルチモーダルモデルの融合機構を鍵となる脆弱性として同定する。
次に, MUROAN におけるデカップリング攻撃 (decoupling attack) と呼ばれる新しい種類のマルチモーダル攻撃を導入する。
MUROANのデカップリング攻撃を利用して、いくつかの最先端マルチモーダルモデルを測定し、これらのモデルにおけるマルチモーダル融合機構がデカップリング攻撃に対して脆弱であることを示す。
特に、最悪の場合、MUROANのデカップリング攻撃は入力空間の1.16%をデカップリングすることで100%の攻撃成功率を達成することを示した。
最後に,従来の対人訓練は,デカップリング攻撃に対するマルチモーダルモデルの堅牢性を向上させるには不十分であることを示す。
我々は,マルチモーダル学習のロバスト性向上を研究者に促すことを希望する。
関連論文リスト
- MMCert: Provable Defense against Adversarial Attacks to Multi-modal Models [34.802736332993994]
我々は,マルチモーダルモデルに対する敵攻撃に対する最初の認証された防御であるMCCertを提案する。
我々は,マルチモーダル道路セグメンテーションタスクとマルチモーダル道路セグメンテーションタスクと,マルチモーダル感情認識タスクの2つのベンチマークデータセットを用いて,MCCertを評価した。
論文 参考訳(メタデータ) (2024-03-28T01:05:06Z) - Quantifying and Enhancing Multi-modal Robustness with Modality Preference [9.367733452960492]
マルチモーダルモデルは、ユニモーダル攻撃や欠落状態のような広汎な摂動に対して脆弱である。
より大きいユニモーダル表現マージンとより信頼性の高いモダリティの統合は、より高いロバスト性を達成するために必須の要素である。
理論的な発見に触発されて,認証ロバストマルチモーダルトレーニング(Certible Robust Multi-modal Training)と呼ばれるトレーニング手順を導入する。
論文 参考訳(メタデータ) (2024-02-09T08:33:48Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - UniS-MMC: Multimodal Classification via Unimodality-supervised
Multimodal Contrastive Learning [29.237813880311943]
本稿では, より信頼性の高いマルチモーダル表現を, 非モーダル予測の弱い監督下で探索する新しいマルチモーダルコントラスト法を提案する。
2つの画像テキスト分類ベンチマークにおける融合特徴を用いた実験結果から,提案手法が現在最先端のマルチモーダル手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T09:18:38Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Investigating Vulnerability to Adversarial Examples on Multimodal Data
Fusion in Deep Learning [32.125310341415755]
本研究では,現在のマルチモーダル核融合モデルが相補的インテリジェンスを利用して敵攻撃を防いでいるかを検討した。
予測精度の向上のために最適化されたマルチモーダル融合モデルは, たとえ1つのセンサのみを攻撃しても, 敵攻撃に対して脆弱であることを確認した。
論文 参考訳(メタデータ) (2020-05-22T03:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。