論文の概要: Defending Multimodal Fusion Models against Single-Source Adversaries
- arxiv url: http://arxiv.org/abs/2206.12714v1
- Date: Sat, 25 Jun 2022 18:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-03 02:57:54.629853
- Title: Defending Multimodal Fusion Models against Single-Source Adversaries
- Title(参考訳): 単一ソースに対するマルチモーダル核融合モデル
- Authors: Karren Yang, Wan-Yi Lin, Manash Barman, Filipe Condessa, Zico Kolter
- Abstract要約: 標準マルチモーダル融合モデルは単一ソースの敵に対して脆弱であることを示す。
単一のモダリティに対する攻撃は、複数の乱れのないモダリティからの正しい情報を克服し、モデルを失敗させる。
この発見に触発され、逆向きに堅牢な核融合戦略を提案する。
- 参考スコア(独自算出の注目度): 6.019777076722421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Beyond achieving high performance across many vision tasks, multimodal models
are expected to be robust to single-source faults due to the availability of
redundant information between modalities. In this paper, we investigate the
robustness of multimodal neural networks against worst-case (i.e., adversarial)
perturbations on a single modality. We first show that standard multimodal
fusion models are vulnerable to single-source adversaries: an attack on any
single modality can overcome the correct information from multiple unperturbed
modalities and cause the model to fail. This surprising vulnerability holds
across diverse multimodal tasks and necessitates a solution. Motivated by this
finding, we propose an adversarially robust fusion strategy that trains the
model to compare information coming from all the input sources, detect
inconsistencies in the perturbed modality compared to the other modalities, and
only allow information from the unperturbed modalities to pass through. Our
approach significantly improves on state-of-the-art methods in single-source
robustness, achieving gains of 7.8-25.2% on action recognition, 19.7-48.2% on
object detection, and 1.6-6.7% on sentiment analysis, without degrading
performance on unperturbed (i.e., clean) data.
- Abstract(参考訳): 多くのビジョンタスクでハイパフォーマンスを実現するだけでなく、モダリティ間の冗長な情報が利用できるため、マルチモーダルモデルは単一ソースの障害に対して堅牢であることが期待されている。
本稿では,マルチモーダルニューラルネットワークの単一モードにおける最悪の摂動に対する堅牢性について検討する。
単一のモダリティに対する攻撃は、複数の乱れのないモダリティからの正しい情報を克服し、モデルが失敗する可能性がある。
この驚くべき脆弱性は、多様なマルチモーダルタスクにまたがって、ソリューションを必要とします。
そこで本研究では,すべての入力源から来る情報を比較し,他のモダリティと比較して摂動モダリティの不一致を検出し,非摂動モダリティからの情報のみを通すようにモデルを訓練する,敵対的ロバストな融合戦略を提案する。
本手法は, シングルソースロバストネスにおける最先端手法を著しく改善し, 動作認識における7.8~25.2%, オブジェクト検出における19.7~48.2%, 感情分析における1.6~6.7%のゲインを得た。
関連論文リスト
- Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Confidence-aware multi-modality learning for eye disease screening [58.861421804458395]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。
モダリティごとに信頼度を測り、マルチモダリティ情報をエレガントに統合する。
パブリックデータセットと内部データセットの両方の実験結果は、我々のモデルが堅牢性に優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T13:27:30Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - Informative Data Selection with Uncertainty for Multi-modal Object
Detection [25.602915381482468]
普遍的不確実性を考慮したマルチモーダル融合モデルを提案する。
本モデルでは,融合時のランダム性を低減し,信頼性の高い出力を生成する。
我々の核融合モデルでは、ガウス、運動のぼやけ、凍土のような激しいノイズ干渉に対してわずかにしか耐えられないことが証明されている。
論文 参考訳(メタデータ) (2023-04-23T16:36:13Z) - Robustness of Fusion-based Multimodal Classifiers to Cross-Modal Content
Dilutions [27.983902791798965]
画像と既存のテキストとの関連性やトピックのコヒーレンスを維持する希釈テキストを生成するモデルを開発する。
その結果,タスク固有の融合型マルチモーダル分類器の性能はそれぞれ23.3%,22.5%低下することがわかった。
我々の研究は、深いマルチモーダルモデルの現実的な変動に対する堅牢性について、さらなる研究をハイライトし、奨励することを目的としている。
論文 参考訳(メタデータ) (2022-11-04T17:58:02Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Discriminative Multimodal Learning via Conditional Priors in Generative
Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。
このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文 参考訳(メタデータ) (2021-10-09T17:22:24Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Investigating Vulnerability to Adversarial Examples on Multimodal Data
Fusion in Deep Learning [32.125310341415755]
本研究では,現在のマルチモーダル核融合モデルが相補的インテリジェンスを利用して敵攻撃を防いでいるかを検討した。
予測精度の向上のために最適化されたマルチモーダル融合モデルは, たとえ1つのセンサのみを攻撃しても, 敵攻撃に対して脆弱であることを確認した。
論文 参考訳(メタデータ) (2020-05-22T03:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。