論文の概要: MMT-ARD: Multimodal Multi-Teacher Adversarial Distillation for Robust Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.17448v1
- Date: Fri, 21 Nov 2025 17:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.152627
- Title: MMT-ARD: Multimodal Multi-Teacher Adversarial Distillation for Robust Vision-Language Models
- Title(参考訳): MMT-ARD:ロバストビジョン・ランゲージモデルのためのマルチモーダル多教師交互蒸留
- Authors: Yuqi Li, Junhao Dong, Chuanguang Yang, Shiping Wen, Piotr Koniusz, Tingwen Huang, Yingli Tian, Yew-Soon Ong,
- Abstract要約: MMT-ARD: Multimodal Multi-Teacher Adversarial Distillation frameworkを提案する。
私たちの重要なイノベーションは、クリーンな機能の保存と堅牢な機能の強化を協調的に最適化する、デュアルテスタの知識融合アーキテクチャです。
ImageNetとゼロショットベンチマークの実験では、MT-ARDは頑健な精度を+4.32%、ゼロショットの精度を+3.5%改善している。
- 参考スコア(独自算出の注目度): 123.90007730845876
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-Language Models (VLMs) are increasingly deployed in safety-critical applications, making their adversarial robustness a crucial concern. While adversarial knowledge distillation has shown promise in transferring robustness from teacher to student models, traditional single-teacher approaches suffer from limited knowledge diversity, slow convergence, and difficulty in balancing robustness and accuracy. To address these challenges, we propose MMT-ARD: a Multimodal Multi-Teacher Adversarial Robust Distillation framework. Our key innovation is a dual-teacher knowledge fusion architecture that collaboratively optimizes clean feature preservation and robust feature enhancement. To better handle challenging adversarial examples, we introduce a dynamic weight allocation strategy based on teacher confidence, enabling adaptive focus on harder samples. Moreover, to mitigate bias among teachers, we design an adaptive sigmoid-based weighting function that balances the strength of knowledge transfer across modalities. Extensive experiments on ImageNet and zero-shot benchmarks demonstrate that MMT-ARD improves robust accuracy by +4.32% and zero-shot accuracy by +3.5% on the ViT-B-32 model, while achieving a 2.3x increase in training efficiency over traditional single-teacher methods. These results highlight the effectiveness and scalability of MMT-ARD in enhancing the adversarial robustness of multimodal large models. Our codes are available at https://github.com/itsnotacie/MMT-ARD.
- Abstract(参考訳): VLM(Vision-Language Models)は、安全クリティカルなアプリケーションにますます導入され、敵の堅牢性は重要な懸念事項となっている。
反対の知識蒸留は、教師から学生モデルへの堅牢性移転の公約を示す一方で、伝統的な単教師アプローチは、知識の多様性の制限、収束の緩やかさ、堅牢性と正確性のバランスの困難さに悩まされている。
これらの課題に対処するため,MMT-ARD: Multimodal Multi-Teacher Adversarial Robust Distillation frameworkを提案する。
私たちの重要なイノベーションは、クリーンな特徴保存と堅牢な機能の強化を協調的に最適化する、デュアルテスタの知識融合アーキテクチャです。
そこで本研究では,教師の信頼度に基づく動的重み付け戦略を導入し,より難しいサンプルに適応的に焦点を合わせることを可能とする。
さらに,教師間のバイアスを軽減するために,モダリティ間の知識伝達の強度のバランスをとる適応型シグモイドに基づく重み付け関数を設計する。
ImageNetとゼロショットベンチマークの大規模な実験では、MMT-ARDは従来の単発学習法に比べて2.3倍のトレーニング効率を達成する一方、VT-B-32モデルでは+4.32%、ゼロショット精度は+3.5%向上した。
これらの結果は,MMT-ARDの有効性と拡張性を強調した。
私たちのコードはhttps://github.com/itsnotacie/MMT-ARD.comで利用可能です。
関連論文リスト
- AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。
トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。
AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文 参考訳(メタデータ) (2025-10-09T06:38:37Z) - CIARD: Cyclic Iterative Adversarial Robustness Distillation [19.685981220232712]
適応ロバストネス蒸留(ARD)は,教師モデルから生徒モデルへ性能とロバスト性を伝達することを目的としている。
既存のARDアプローチは学生モデルの堅牢性を高めるが、避けられない副産物はクリーンな例で性能を低下させる。
本稿では,2つの重要な革新を伴う循環反復型ARD(CIARD)手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:51:43Z) - Optimizing Robustness and Accuracy in Mixture of Experts: A Dual-Model Approach [14.639659415276533]
Mixture of Experts (MoE) は、複雑な機械学習タスクに専門のエキスパートネットワークを活用することに成功している。
敵攻撃に対する感受性は、堅牢なアプリケーションに展開する上で重要な課題である。
本稿では, 自然精度を維持しつつ, 頑健性をMoEに組み込む方法について論じる。
論文 参考訳(メタデータ) (2025-02-05T20:45:52Z) - Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark [69.02666229531322]
モダリティ不完全産業異常検出(MIIAD)の先駆的研究を紹介する。
その結果,既存のMIAD手法はMIIADベンチでは性能が悪く,性能が著しく低下していることが判明した。
本稿では,新しい2段階のロバストモードアリティファジングと検出フレームwoRk(RADAR)を提案する。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - FullLoRA: Efficiently Boosting the Robustness of Pretrained Vision Transformers [72.83770102062141]
Vision Transformer (ViT) モデルは、様々なコンピュータビジョンタスクにおいて徐々に主流になりつつある。
既存の大きなモデルは、トレーニング中のパフォーマンスを優先する傾向があり、ロバストさを無視する可能性がある。
従来のLoRAモジュールよりも前に学習可能なレイヤ正規化を取り入れた新しいLNLoRAモジュールを開発した。
学習可能なLNLoRAモジュールをViTモデルの主要コンポーネントに組み込むことにより,FullLoRAフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-03T14:08:39Z) - VideoAdviser: Video Knowledge Distillation for Multimodal Transfer
Learning [6.379202839994046]
マルチモーダル変換学習は、様々なモーダルの事前訓練された表現を、効果的なマルチモーダル融合のための共通の領域空間に変換することを目的としている。
本稿では,マルチモーダル基本モデルから特定のモーダル基本モデルへ,マルチモーダルなプロンプトのマルチモーダルな知識を伝達するためのビデオ知識蒸留手法であるVideoAdviserを提案する。
本手法は,映像レベルの感情分析と音声視覚検索の2つの課題において評価する。
論文 参考訳(メタデータ) (2023-09-27T08:44:04Z) - Mutual Adversarial Training: Learning together is better than going
alone [82.78852509965547]
モデル間の相互作用が知識蒸留による堅牢性に与える影響について検討する。
本稿では,複数のモデルを同時に訓練する相互対人訓練(MAT)を提案する。
MATは、ホワイトボックス攻撃下で、モデル堅牢性と最先端メソッドを効果的に改善することができる。
論文 参考訳(メタデータ) (2021-12-09T15:59:42Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。