論文の概要: Provable Robustness in Multimodal Large Language Models via Feature Space Smoothing
- arxiv url: http://arxiv.org/abs/2601.16200v1
- Date: Thu, 22 Jan 2026 18:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.697762
- Title: Provable Robustness in Multimodal Large Language Models via Feature Space Smoothing
- Title(参考訳): 特徴空間平滑化による多モーダル大言語モデルの確率ロバスト性
- Authors: Song Xia, Meiwen Ding, Chenqi Kong, Wenhan Yang, Xudong Jiang,
- Abstract要約: MLLM(Multimodal large language model)は、多様なアプリケーションにまたがる強力な能力を示すが、敵の摂動には弱い。
本稿では,特徴空間の平滑化 (FS) を提案し,理論上は FS がMLLM の特徴表現に証明されたロバスト性を提供していることを証明している。
PSMを併用したFSは, 高い理論的堅牢性を保証するだけでなく, 対人訓練よりも優れた経験的性能を示すことを示す。
- 参考スコア(独自算出の注目度): 59.6491828112519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) exhibit strong capabilities across diverse applications, yet remain vulnerable to adversarial perturbations that distort their feature representations and induce erroneous predictions. To address this vulnerability, we propose the Feature-space Smoothing (FS) and theoretically prove that FS offers certified robustness on the feature representations of MLLMs. Specifically, FS transforms any feature encoder into a smoothed variant that is guaranteed to maintain a certified lower bound on the feature cosine similarity between clean and adversarial representations under $\ell_2$-bounded attacks. Moreover, we indicate that the value of this Feature Cosine Similarity Bound (FCSB) derived from FS can be improved by enlarging the defined Gaussian robustness score on the vanilla encoder. Building upon this, we introduce the Purifier and Smoothness Mapper (PSM), a plug-and-play module that improves the Gaussian robustness score of MLLMs and thus enhances their certified robustness under FS, without requiring any retraining on MLLMs. We demonstrate that the FS with PSM not only provides a strong theoretical robustness guarantee but also exhibits superior empirical performance compared to adversarial training. Extensive experiments across diverse MLLMs and downstream tasks indicate the effectiveness of the FS-PSM, reducing the Attack Success Rate (ASR) of various white-box attacks from nearly 90\% to about 1\%.
- Abstract(参考訳): MLLM(Multimodal large language model)は、様々なアプリケーションにまたがる強力な能力を示すが、それらの特徴表現を歪ませ、誤った予測を誘導する敵の摂動に弱いままである。
この脆弱性に対処するため、我々はFeature-space Smoothing (FS)を提案し、理論上、FSがMLLMの特徴表現に証明されたロバスト性を提供することを証明した。
具体的には、FSは任意の特徴エンコーダを滑らかな変種に変換し、$\ell_2$-bounded攻撃の下でのクリーン表現と逆表現の間の特徴コサイン類似性の証明された下位境界を維持することを保証している。
さらに, この特徴コサイン類似性境界(FCSB)の値が, バニラエンコーダのガウス的ロバスト性スコアを大きくすることで向上できることが示唆された。
そこで我々は,Purifier and Smoothness Mapper (PSM)を導入し,MLLMのガウス的ロバスト性スコアを向上し,MLLMの再トレーニングを必要とせず,FS下での信頼性ロバスト性を向上させる。
PSMを併用したFSは, 高い理論的堅牢性を保証するだけでなく, 対人訓練よりも優れた経験的性能を示すことを示す。
多様なMLLMおよび下流タスクにわたる大規模な実験は、FS-PSMの有効性を示し、様々なホワイトボックス攻撃の攻撃成功率(ASR)を約90%から約1倍に削減した。
関連論文リスト
- A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - When MLLMs Meet Compression Distortion: A Coding Paradigm Tailored to MLLMs [38.29061845878822]
マルチレベル特徴を適応的に保護し、下流タスクの異なる要求に適合するように設計されたMLLM(CoTAM)に適応した画像コーデックTAiloredを提案する。
MLLMタスクで同じ性能を維持しながら,最大35.99%の省力化を実現している。
論文 参考訳(メタデータ) (2025-09-29T04:07:52Z) - FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction [82.6826848085638]
視覚的ジェイルブレイク攻撃は、洗練されたテキスト攻撃よりも簡単にオープンソースのMLLMを操作することができる。
これらの攻撃は、非常に限られたクロスモデル転送可能性を示し、クローズドソースMLLMの脆弱性を確実に特定することができない。
本稿では,FORCE(Feature Over-Reliance CorrEction)手法を提案する。
論文 参考訳(メタデータ) (2025-09-25T11:36:56Z) - IPBA: Imperceptible Perturbation Backdoor Attack in Federated Self-Supervised Learning [13.337697403537488]
フェデレート自己教師学習(FSSL)は、分散モデリングとラベルなし表現学習の利点を組み合わせたものである。
研究によると、FSSLはバックドア攻撃に弱いままである。
我々はIPBAと呼ばれるFSSLに対する非受容的で効果的なバックドア攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T14:36:11Z) - FDLLM: A Dedicated Detector for Black-Box LLMs Fingerprinting [20.07438999071414]
大規模言語モデル(LLM)は、デジタルコンテンツ作成の風景を急速に変えつつある。
FD-Datasetは、20の有名なプロプライエタリおよびオープンソースLLMから90,000のテキストサンプルからなる総合的なバイリンガルフィンガープリントベンチマークである。
また,パラメータ効率の低いLow-Rank Adaptation (LoRA) を利用して基礎モデルの微調整を行う新しいフィンガープリント手法であるFDLLMを提案する。
論文 参考訳(メタデータ) (2025-01-27T13:18:40Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - COMMIT: Certifying Robustness of Multi-Sensor Fusion Systems against
Semantic Attacks [24.37030085306459]
本稿では,マルチセンサ融合システムのセマンティックアタックに対する堅牢性を証明した最初のロバストネス認証フレームワークCOMMITを提案する。
特に,マルチモーダルデータを用いたランダム化平滑化を利用した実用的な異方性雑音機構を提案する。
MSFモデルの認証は、MSFモデルの利点を検証するシングルモーダルモデルよりも少なくとも48.39%高いことが示されている。
論文 参考訳(メタデータ) (2024-03-04T18:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。