論文の概要: Quantifying and Enhancing Multi-modal Robustness with Modality
Preference
- arxiv url: http://arxiv.org/abs/2402.06244v1
- Date: Fri, 9 Feb 2024 08:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 17:41:16.866646
- Title: Quantifying and Enhancing Multi-modal Robustness with Modality
Preference
- Title(参考訳): モダリティ選好によるマルチモーダルロバストネスの定量化と向上
- Authors: Zequn Yang, Yake Wei, Ce Liang, Di Hu
- Abstract要約: マルチモーダルモデルは、ユニモーダル攻撃や欠落状態のような広汎な摂動に対して脆弱である。
より大きいユニモーダル表現マージンとより信頼性の高いモダリティの統合は、より高いロバスト性を達成するために必須の要素である。
理論的な発見に触発されて,認証ロバストマルチモーダルトレーニング(Certible Robust Multi-modal Training)と呼ばれるトレーニング手順を導入する。
- 参考スコア(独自算出の注目度): 10.233575823976564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal models have shown a promising capability to effectively integrate
information from various sources, yet meanwhile, they are found vulnerable to
pervasive perturbations, such as uni-modal attacks and missing conditions. To
counter these perturbations, robust multi-modal representations are highly
expected, which are positioned well away from the discriminative multi-modal
decision boundary. In this paper, different from conventional empirical
studies, we focus on a commonly used joint multi-modal framework and
theoretically discover that larger uni-modal representation margins and more
reliable integration for modalities are essential components for achieving
higher robustness. This discovery can further explain the limitation of
multi-modal robustness and the phenomenon that multi-modal models are often
vulnerable to attacks on the specific modality. Moreover, our analysis reveals
how the widespread issue, that the model has different preferences for
modalities, limits the multi-modal robustness by influencing the essential
components and could lead to attacks on the specific modality highly effective.
Inspired by our theoretical finding, we introduce a training procedure called
Certifiable Robust Multi-modal Training (CRMT), which can alleviate this
influence from modality preference and explicitly regulate essential components
to significantly improve robustness in a certifiable manner. Our method
demonstrates substantial improvements in performance and robustness compared
with existing methods. Furthermore, our training procedure can be easily
extended to enhance other robust training strategies, highlighting its
credibility and flexibility.
- Abstract(参考訳): マルチモーダルモデルは、様々なソースからの情報を効果的に統合する有望な能力を示しているが、一方、ユニモーダル攻撃や欠落状態のような広汎な摂動に対して脆弱である。
これらの摂動に対抗するために、ロバストなマルチモーダル表現は非常に期待され、判別的マルチモーダル決定境界からかなり離れている。
本稿では,従来の経験的研究と異なり,共通に使用されるマルチモーダル・フレームワークに焦点をあて,理論上,より大きなユニモーダル表現マージンとより信頼性の高いモダリティ統合が高堅牢性を達成する上で不可欠な要素であることを見出した。
この発見は、マルチモーダルロバスト性の限界と、マルチモーダルモデルが特定のモダリティに対する攻撃に対して脆弱であることの現象をさらに説明できる。
さらに,本研究では,モデルがモダリティの嗜好が異なること,本質的な構成要素に影響を与えることでマルチモーダルロバスト性を制限し,特定のモダリティに対する攻撃を効果的に行なえる可能性を明らかにする。
理論的な発見から着想を得て,モダリティの嗜好からこの影響を緩和し,本質的な構成要素を明示的に規制し,認証方法の堅牢性を大幅に向上させる,Certifiable Robust Multi-modal Training (CRMT) と呼ばれるトレーニング手順を導入する。
本手法は,既存手法と比較して性能と堅牢性を大幅に向上させる。
さらに、トレーニング手順を簡単に拡張して、他の堅牢なトレーニング戦略を強化し、信頼性と柔軟性を強調します。
関連論文リスト
- Improving Unimodal Inference with Multimodal Transformers [88.83765002648833]
提案手法は,マルチモーダルトランスフォーマーをベースとした単一モーダルモデルを組み込んだマルチブランチアーキテクチャである。
これらの枝を共に訓練することにより、より強いマルチモーダル枝は、その知識をより弱いユニモーダル枝にマルチタスクの目的を通して移すことができる。
本稿では,RGBとDepthに基づく動的手動作認識,音声・顔画像に基づく音声視覚的感情認識,音声・音声音声による感情分析の課題について検討する。
論文 参考訳(メタデータ) (2023-11-16T19:53:35Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Enhancing Multi-modal Cooperation via Fine-grained Modality Valuation [11.664945091814904]
サンプルレベルで各モードの寄与を評価するために, 微粒なモーダリティ評価指標を導入する。
我々は、この問題を分析し、低貢献率の差別能力を高めることにより、モダリティ間の協調を改善する。
論文 参考訳(メタデータ) (2023-09-12T14:16:34Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - Calibrating Multimodal Learning [94.65232214643436]
本稿では,従来の手法の予測信頼性を校正するために,新たな正規化手法であるCML(Callibrating Multimodal Learning)正則化を提案する。
この技術は、既存のモデルによって柔軟に装備され、信頼性校正、分類精度、モデルロバスト性の観点から性能を向上させることができる。
論文 参考訳(メタデータ) (2023-06-02T04:29:57Z) - Reliable Multimodality Eye Disease Screening via Mixture of Student's t
Distributions [49.4545260500952]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインEyeMoStについて紹介する。
本モデルでは,一様性に対する局所的不確実性と融合モードに対する大域的不確実性の両方を推定し,信頼性の高い分類結果を生成する。
パブリックデータセットと社内データセットの両方に関する実験結果から、我々のモデルは現在の手法よりも信頼性が高いことが判明した。
論文 参考訳(メタデータ) (2023-03-17T06:18:16Z) - Adaptive Contrastive Learning on Multimodal Transformer for Review
Helpfulness Predictions [40.70793282367128]
本稿では,MRHP(Multimodal Review Helpfulness Prediction)問題に対するマルチモーダルコントラスト学習を提案する。
さらに,コントラスト学習における適応重み付け方式を提案する。
最後に,マルチモーダルデータの不整合性に対処するマルチモーダルインタラクションモジュールを提案する。
論文 参考訳(メタデータ) (2022-11-07T13:05:56Z) - Analyzing Modality Robustness in Multimodal Sentiment Analysis [48.52878002917685]
堅牢なマルチモーダルモデルの構築は、荒野における信頼性の高いデプロイメントを実現する上で極めて重要です。
訓練されたマルチモーダルモデルにおけるモダリティロバストネスの簡易診断チェックを提案する。
問題を軽減するために、よく知られた堅牢なトレーニング戦略を分析します。
論文 参考訳(メタデータ) (2022-05-30T23:30:16Z) - Understanding and Measuring Robustness of Multimodal Learning [14.257147031953211]
MUROANと呼ばれるフレームワークを用いて,マルチモーダル学習の対角的堅牢性を総合的に測定する。
まず、MUROANにおけるマルチモーダルモデルの統一ビューを示し、マルチモーダルモデルの融合機構を鍵となる脆弱性として同定する。
次に,MUROANにおけるデカップリング攻撃(decoupling attack)と呼ばれる,マルチモーダルモデルの妥協を目的とした新しいタイプのマルチモーダル敵攻撃を導入する。
論文 参考訳(メタデータ) (2021-12-22T21:10:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。