論文の概要: Vulnerability-Aware Robust Multimodal Adversarial Training
- arxiv url: http://arxiv.org/abs/2511.18138v1
- Date: Sat, 22 Nov 2025 17:49:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.644768
- Title: Vulnerability-Aware Robust Multimodal Adversarial Training
- Title(参考訳): 脆弱性を考慮したロバストなマルチモーダル・ディバイサル・トレーニング
- Authors: Junrui Zhang, Xinyu Zhao, Jie Peng, Chenjie Wang, Jianmin Ji, Tianlong Chen,
- Abstract要約: マルチモーダル学習は、複数のモダリティを統合することで、様々なタスクにおいて大きな優位性を示している。
既存の方法は、主に特定のモダリティに対する攻撃、またはすべてのモダリティを無差別に攻撃することに焦点を当てている。
本稿では,各モダリティの脆弱性を特定することで,マルチモーダルロバスト性を向上させるプローブ・イン・トレーニング・逆トレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 45.350855453965615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning has shown significant superiority on various tasks by integrating multiple modalities. However, the interdependencies among modalities increase the susceptibility of multimodal models to adversarial attacks. Existing methods mainly focus on attacks on specific modalities or indiscriminately attack all modalities. In this paper, we find that these approaches ignore the differences between modalities in their contribution to final robustness, resulting in suboptimal robustness performance. To bridge this gap, we introduce Vulnerability-Aware Robust Multimodal Adversarial Training (VARMAT), a probe-in-training adversarial training method that improves multimodal robustness by identifying the vulnerability of each modality. To be specific, VARMAT first explicitly quantifies the vulnerability of each modality, grounded in a first-order approximation of the attack objective (Probe). Then, we propose a targeted regularization term that penalizes modalities with high vulnerability, guiding robust learning while maintaining task accuracy (Training). We demonstrate the enhanced robustness of our method across multiple multimodal datasets involving diverse modalities. Finally, we achieve {12.73%, 22.21%, 11.19%} robustness improvement on three multimodal datasets, revealing a significant blind spot in multimodal adversarial training.
- Abstract(参考訳): マルチモーダル学習は、複数のモダリティを統合することで、様々なタスクにおいて大きな優位性を示している。
しかし、モダリティ間の相互依存は、敵攻撃に対するマルチモーダルモデルの感受性を高める。
既存の方法は、主に特定のモダリティに対する攻撃、またはすべてのモダリティを無差別に攻撃することに焦点を当てている。
本稿では,これらの手法が最終的なロバスト性への寄与におけるモダリティの違いを無視し,最適下ロバスト性性能をもたらすことを明らかにする。
このギャップを埋めるために、各モードの脆弱性を特定してマルチモーダルロバスト・ロバスト・マルチモーダル・トレーニング(VARMAT)を提案する。
具体的に言うと、VARMATはまず、攻撃目標(Probe)の1次近似に基づいて、各モダリティの脆弱性を明示的に定量化する。
そこで本研究では,タスク精度を維持しつつ,頑健な学習を導くことを目的として,モダリティを高い脆弱性で罰する正規化用語を提案する。
多様なモダリティを含む複数のマルチモーダルデータセットにまたがる手法の強靭性を実証する。
最後に、3つのマルチモーダルデータセットに対して {12.73%, 22.21%, 11.19%} 堅牢性の改善を実現し、マルチモーダル逆行訓練において重要な盲点が明らかとなった。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Adversarial Robustness for Unified Multi-Modal Encoders via Efficient Calibration [12.763688592842717]
統合マルチモーダルエンコーダにおける敵の脆弱性の包括的研究について述べる。
音声や点雲などの視覚的でない入力は、特に脆弱である。
本手法は,エプシロン=4/255で最大47.3%の強靭性を向上する。
論文 参考訳(メタデータ) (2025-05-17T08:26:04Z) - Continual Multimodal Contrastive Learning [99.53621521696051]
MCL(Multimodal Contrastive Learning)は、異なるモダリティを整列し、関節空間におけるマルチモーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - AI Safety in Practice: Enhancing Adversarial Robustness in Multimodal Image Captioning [0.0]
視覚データとテキストデータを組み合わせたマルチモーダル機械学習モデルは、ますます重要なアプリケーションにデプロイされている。
本稿では,マルチモーダル画像キャプションモデルの敵攻撃に対する堅牢性を高めるための効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T20:28:31Z) - Confidence-aware multi-modality learning for eye disease screening [58.861421804458395]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。
モダリティごとに信頼度を測り、マルチモダリティ情報をエレガントに統合する。
パブリックデータセットと内部データセットの両方の実験結果は、我々のモデルが堅牢性に優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T13:27:30Z) - Quantifying and Enhancing Multi-modal Robustness with Modality Preference [9.367733452960492]
マルチモーダルモデルは、ユニモーダル攻撃や欠落状態のような広汎な摂動に対して脆弱である。
より大きいユニモーダル表現マージンとより信頼性の高いモダリティの統合は、より高いロバスト性を達成するために必須の要素である。
理論的な発見に触発されて,認証ロバストマルチモーダルトレーニング(Certible Robust Multi-modal Training)と呼ばれるトレーニング手順を導入する。
論文 参考訳(メタデータ) (2024-02-09T08:33:48Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Understanding and Measuring Robustness of Multimodal Learning [14.257147031953211]
MUROANと呼ばれるフレームワークを用いて,マルチモーダル学習の対角的堅牢性を総合的に測定する。
まず、MUROANにおけるマルチモーダルモデルの統一ビューを示し、マルチモーダルモデルの融合機構を鍵となる脆弱性として同定する。
次に,MUROANにおけるデカップリング攻撃(decoupling attack)と呼ばれる,マルチモーダルモデルの妥協を目的とした新しいタイプのマルチモーダル敵攻撃を導入する。
論文 参考訳(メタデータ) (2021-12-22T21:10:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。