論文の概要: Adversarial Robustness for Unified Multi-Modal Encoders via Efficient Calibration
- arxiv url: http://arxiv.org/abs/2505.11895v1
- Date: Sat, 17 May 2025 08:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.921989
- Title: Adversarial Robustness for Unified Multi-Modal Encoders via Efficient Calibration
- Title(参考訳): 効率的な校正による統一多モードエンコーダの逆ロバスト性
- Authors: Chih-Ting Liao, Bin Ren, Guofeng Mei, Xu Zheng,
- Abstract要約: 統合マルチモーダルエンコーダにおける敵の脆弱性の包括的研究について述べる。
音声や点雲などの視覚的でない入力は、特に脆弱である。
本手法は,エプシロン=4/255で最大47.3%の強靭性を向上する。
- 参考スコア(独自算出の注目度): 12.763688592842717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent unified multi-modal encoders align a wide range of modalities into a shared representation space, enabling diverse cross-modal tasks. Despite their impressive capabilities, the robustness of these models under adversarial perturbations remains underexplored, which is a critical concern for safety-sensitive applications. In this work, we present the first comprehensive study of adversarial vulnerability in unified multi-modal encoders. We find that even mild adversarial perturbations lead to substantial performance drops across all modalities. Non-visual inputs, such as audio and point clouds, are especially fragile, while visual inputs like images and videos also degrade significantly. To address this, we propose an efficient adversarial calibration framework that improves robustness across modalities without modifying pretrained encoders or semantic centers, ensuring compatibility with existing foundation models. Our method introduces modality-specific projection heads trained solely on adversarial examples, while keeping the backbone and embeddings frozen. We explore three training objectives: fixed-center cross-entropy, clean-to-adversarial L2 alignment, and clean-adversarial InfoNCE, and we introduce a regularization strategy to ensure modality-consistent alignment under attack. Experiments on six modalities and three Bind-style models show that our method improves adversarial robustness by up to 47.3 percent at epsilon = 4/255, while preserving or even improving clean zero-shot and retrieval performance with less than 1 percent trainable parameters.
- Abstract(参考訳): 最近の統合マルチモーダルエンコーダは、幅広いモダリティを共有表現空間に整合させ、多様なクロスモーダルタスクを可能にする。
その印象的な能力にもかかわらず、敵の摂動下でのこれらのモデルの堅牢性は未探索のままであり、これは安全に敏感なアプリケーションにとって重要な関心事である。
本研究では,統合マルチモーダルエンコーダにおける敵の脆弱性を包括的に研究する。
軽度の対向的摂動でさえ、全てのモダリティに実質的なパフォーマンス低下をもたらすことが判明した。
音声や点雲などの視覚的でない入力は特に脆弱であり、画像やビデオなどの視覚的入力も著しく劣化する。
そこで本研究では,事前訓練されたエンコーダやセマンティックセンターを変更することなく,モダリティ間のロバスト性を向上し,既存の基盤モデルとの整合性を確保する,効率的な逆校正フレームワークを提案する。
本手法では,背骨と埋没部を凍結したまま,逆向きの例にのみ訓練したモーダリティ特異的投射ヘッドを導入する。
我々は,固定中心のクロスエントロピー,クリーン・対逆L2アライメント,クリーン・対逆InfoNCEの3つのトレーニング目標について検討し,攻撃下でのモダリティ整合性アライメントを確保するための正規化戦略を導入する。
6つのモダリティと3つのBindスタイルのモデルによる実験により、エプシロン=4/255で最大47.3%の強靭性を向上し、クリーンなゼロショットと検索性能を1%未満のトレーニング可能なパラメータで維持または改善した。
関連論文リスト
- Robust-LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for Multi-modal Large Language Models [26.656858396343726]
MLLM(Multi-modal Large Language Models)は、視覚言語タスクにおいて優れているが、視覚的逆境の摂動に弱いままである。
既存の手法では、ImageNet-scaleデータ上でCLIPビジョンエンコーダに制約付き逆調整を適用することにより、これらのリスクを軽減する方法が提案されている。
本稿では,大規模データに対して逆向きに事前学習された既存の視覚分類モデルを活用する方法を提案する。
論文 参考訳(メタデータ) (2025-02-03T17:59:45Z) - E2ED^2:Direct Mapping from Noise to Data for Enhanced Diffusion Models [15.270657838960114]
拡散モデルは、視覚的生成モデリングにおけるデファクト・プライマリ・パラダイムとして確立されてきた。
最終生成サンプルから初期雑音への直接最適化を実現する新しいエンドツーエンド学習パラダイムを提案する。
Fr'eche't Inception Distance (FID) と CLIP のスコアは,サンプリングステップが少なくても大幅に向上する。
論文 参考訳(メタデータ) (2024-12-30T16:06:31Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Ensemble Adversarial Defense via Integration of Multiple Dispersed Low Curvature Models [7.8245455684263545]
本研究では,攻撃伝達性を低減し,アンサンブルの多様性を高めることを目的とする。
損失曲率を表す2階勾配を, 対向的強靭性の重要な要因として同定する。
本稿では,複数変数の低曲率ネットワークモデルをトレーニングするための新しい正規化器を提案する。
論文 参考訳(メタデータ) (2024-03-25T03:44:36Z) - Adversarial Training Should Be Cast as a Non-Zero-Sum Game [121.95628660889628]
対人訓練の2つのプレイヤーゼロサムパラダイムは、十分な強靭性を発揮できていない。
敵のトレーニングアルゴリズムでよく使われるサロゲートベースの緩和は、ロバスト性に関するすべての保証を無効にすることを示す。
対人訓練の新たな非ゼロサム二段階の定式化は、一致し、場合によっては最先端の攻撃よりも優れたフレームワークをもたらす。
論文 参考訳(メタデータ) (2023-06-19T16:00:48Z) - Language-Driven Anchors for Zero-Shot Adversarial Robustness [25.160195547250655]
本稿では,言語駆動型アンカー型対外訓練戦略を提案する。
テキストエンコーダのセマンティック一貫性を活用することで、LAATは画像モデルの対角的堅牢性を高めることを目指している。
LAATは、最先端手法よりもゼロショット対逆ロバスト性を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-01-30T17:34:43Z) - Learning Transferable Adversarial Robust Representations via Multi-view
Consistency [57.73073964318167]
デュアルエンコーダを用いたメタ逆多視点表現学習フレームワークを提案する。
未確認領域からの少数ショット学習タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-10-19T11:48:01Z) - Exploring Adversarial Robustness of Multi-Sensor Perception Systems in
Self Driving [87.3492357041748]
本稿では,敵物体をホスト車両の上に配置することで,マルチセンサ検出の実用的感受性を示す。
実験の結果, 攻撃が成功した原因は主に画像の特徴が損なわれやすいことが判明した。
よりロバストなマルチモーダル知覚システムに向けて,特徴分断を伴う敵対的訓練が,このような攻撃に対するロバスト性を大幅に高めることを示す。
論文 参考訳(メタデータ) (2021-01-17T21:15:34Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。