論文の概要: Quantifying and Enhancing Multi-modal Robustness with Modality Preference
- arxiv url: http://arxiv.org/abs/2402.06244v2
- Date: Thu, 18 Apr 2024 08:08:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 20:29:53.262554
- Title: Quantifying and Enhancing Multi-modal Robustness with Modality Preference
- Title(参考訳): モーダリティを考慮したマルチモーダルロバストネスの定量化と向上
- Authors: Zequn Yang, Yake Wei, Ce Liang, Di Hu,
- Abstract要約: マルチモーダルモデルは、ユニモーダル攻撃や欠落状態のような広汎な摂動に対して脆弱である。
より大きいユニモーダル表現マージンとより信頼性の高いモダリティの統合は、より高いロバスト性を達成するために必須の要素である。
理論的な発見に触発されて,認証ロバストマルチモーダルトレーニング(Certible Robust Multi-modal Training)と呼ばれるトレーニング手順を導入する。
- 参考スコア(独自算出の注目度): 9.367733452960492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal models have shown a promising capability to effectively integrate information from various sources, yet meanwhile, they are found vulnerable to pervasive perturbations, such as uni-modal attacks and missing conditions. To counter these perturbations, robust multi-modal representations are highly expected, which are positioned well away from the discriminative multi-modal decision boundary. In this paper, different from conventional empirical studies, we focus on a commonly used joint multi-modal framework and theoretically discover that larger uni-modal representation margins and more reliable integration for modalities are essential components for achieving higher robustness. This discovery can further explain the limitation of multi-modal robustness and the phenomenon that multi-modal models are often vulnerable to attacks on the specific modality. Moreover, our analysis reveals how the widespread issue, that the model has different preferences for modalities, limits the multi-modal robustness by influencing the essential components and could lead to attacks on the specific modality highly effective. Inspired by our theoretical finding, we introduce a training procedure called Certifiable Robust Multi-modal Training (CRMT), which can alleviate this influence from modality preference and explicitly regulate essential components to significantly improve robustness in a certifiable manner. Our method demonstrates substantial improvements in performance and robustness compared with existing methods. Furthermore, our training procedure can be easily extended to enhance other robust training strategies, highlighting its credibility and flexibility.
- Abstract(参考訳): マルチモーダルモデルは、様々なソースからの情報を効果的に統合する有望な能力を示しているが、一方、ユニモーダル攻撃や欠落状態のような広汎な摂動に弱いことが判明している。
これらの摂動に対処するため、頑健なマルチモーダル表現が期待され、それは差別的なマルチモーダル決定境界からかなり離れた位置にある。
本稿では,従来の実証研究とは違って,一般的な多モーダルフレームワークに着目し,より大きな一様表現マージンとより信頼性の高いモダリティの統合が,より高いロバスト性を達成する上で不可欠な要素であることを理論的に発見する。
この発見は、マルチモーダルロバスト性の限界と、マルチモーダルモデルが特定のモダリティに対する攻撃に対して脆弱であることの現象をさらに説明できる。
さらに,本研究では,モデルがモダリティの嗜好が異なること,本質的な構成要素に影響を与えることでマルチモーダルロバスト性を制限し,特定のモダリティに対する攻撃を効果的に行なえる可能性を明らかにする。
理論的な発見から着想を得て,モダリティの嗜好からこの影響を緩和し,本質的な構成要素を明示的に規制し,認証方法の堅牢性を大幅に向上させる,Certifiable Robust Multi-modal Training (CRMT) と呼ばれるトレーニング手順を導入する。
提案手法は,既存手法と比較して,性能と堅牢性を大幅に向上したことを示す。
さらに、トレーニング手順を簡単に拡張して、他の堅牢なトレーニング戦略を強化し、信頼性と柔軟性を強調します。
関連論文リスト
- Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - Confidence-aware multi-modality learning for eye disease screening [58.861421804458395]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。
モダリティごとに信頼度を測り、マルチモダリティ情報をエレガントに統合する。
パブリックデータセットと内部データセットの両方の実験結果は、我々のモデルが堅牢性に優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T13:27:30Z) - Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。
以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。
本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:58Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - Calibrating Multimodal Learning [94.65232214643436]
本稿では,従来の手法の予測信頼性を校正するために,新たな正規化手法であるCML(Callibrating Multimodal Learning)正則化を提案する。
この技術は、既存のモデルによって柔軟に装備され、信頼性校正、分類精度、モデルロバスト性の観点から性能を向上させることができる。
論文 参考訳(メタデータ) (2023-06-02T04:29:57Z) - Analyzing Modality Robustness in Multimodal Sentiment Analysis [48.52878002917685]
堅牢なマルチモーダルモデルの構築は、荒野における信頼性の高いデプロイメントを実現する上で極めて重要です。
訓練されたマルチモーダルモデルにおけるモダリティロバストネスの簡易診断チェックを提案する。
問題を軽減するために、よく知られた堅牢なトレーニング戦略を分析します。
論文 参考訳(メタデータ) (2022-05-30T23:30:16Z) - Understanding and Measuring Robustness of Multimodal Learning [14.257147031953211]
MUROANと呼ばれるフレームワークを用いて,マルチモーダル学習の対角的堅牢性を総合的に測定する。
まず、MUROANにおけるマルチモーダルモデルの統一ビューを示し、マルチモーダルモデルの融合機構を鍵となる脆弱性として同定する。
次に,MUROANにおけるデカップリング攻撃(decoupling attack)と呼ばれる,マルチモーダルモデルの妥協を目的とした新しいタイプのマルチモーダル敵攻撃を導入する。
論文 参考訳(メタデータ) (2021-12-22T21:10:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。