論文の概要: Feature-Space Adversarial Robustness Certification for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.16200v2
- Date: Tue, 27 Jan 2026 19:02:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 13:43:09.160239
- Title: Feature-Space Adversarial Robustness Certification for Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルのための特徴空間逆ロバスト性証明
- Authors: Song Xia, Meiwen Ding, Chenqi Kong, Wenhan Yang, Xudong Jiang,
- Abstract要約: MLLM(Multimodal large language model)は、様々なアプリケーションにまたがる強力な機能を示す。
MLLMは、その特徴表現を歪め、誤った予測を誘発する敵の摂動に弱い。
本稿では,MLLMの特徴表現レベルにおいて,信頼性の高いロバスト性保証を提供する汎用フレームワークであるFeature-space Smoothing(FS)を提案する。
- 参考スコア(独自算出の注目度): 59.6491828112519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) exhibit strong capabilities across diverse applications, yet remain vulnerable to adversarial perturbations that distort their feature representations and induce erroneous predictions. To address this vulnerability, we propose Feature-space Smoothing (FS), a general framework that provides certified robustness guarantees at the feature representation level of MLLMs. We theoretically prove that FS converts a given feature extractor into a smoothed variant that is guaranteed a certified lower bound on the cosine similarity between clean and adversarial features under $\ell_2$-bounded perturbations. Moreover, we establish that the value of this Feature Cosine Similarity Bound (FCSB) is determined by the intrinsic Gaussian robustness score of the given encoder. Building on this insight, we introduce the Gaussian Smoothness Booster (GSB), a plug-and-play module that enhances the Gaussian robustness score of pretrained MLLMs, thereby strengthening the robustness guaranteed by FS, without requiring additional MLLM retraining. Extensive experiments demonstrate that applying the FS to various MLLMs yields strong certified feature-space robustness and consistently leads to robust task-oriented performance across diverse applications.
- Abstract(参考訳): MLLM(Multimodal large language model)は、様々なアプリケーションにまたがる強力な能力を示すが、それらの特徴表現を歪ませ、誤った予測を誘導する敵の摂動に弱いままである。
この脆弱性に対処するため,MLLMの特徴表現レベルで信頼性保証を提供する汎用フレームワークであるFeature-space Smoothing (FS)を提案する。
理論的には、FS が与えられた特徴抽出器を、$\ell_2$-bounded 摂動の下でのクリーンな特徴と対角的特徴のコサイン類似性に基づく証明された下界が保証される滑らかな変種に変換することを証明している。
さらに、この特徴コサイン類似性境界(FCSB)の値は、与えられたエンコーダの固有ガウスロバスト性スコアによって決定される。
この知見に基づいて,プリトレーニングされたMLLMのガウス的ロバスト性スコアを高めるプラグイン・アンド・プレイモジュールであるGaussian Smoothness Booster (GSB)を導入し,追加のMLLM再トレーニングを必要とせず,FSが保証するロバスト性を強化する。
広範囲な実験により、FSを様々なMLLMに適用すると、強力な特徴空間の堅牢性が得られ、多様なアプリケーションにまたがるタスク指向のパフォーマンスが一貫して向上することが示された。
関連論文リスト
- A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - When MLLMs Meet Compression Distortion: A Coding Paradigm Tailored to MLLMs [38.29061845878822]
マルチレベル特徴を適応的に保護し、下流タスクの異なる要求に適合するように設計されたMLLM(CoTAM)に適応した画像コーデックTAiloredを提案する。
MLLMタスクで同じ性能を維持しながら,最大35.99%の省力化を実現している。
論文 参考訳(メタデータ) (2025-09-29T04:07:52Z) - FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction [82.6826848085638]
視覚的ジェイルブレイク攻撃は、洗練されたテキスト攻撃よりも簡単にオープンソースのMLLMを操作することができる。
これらの攻撃は、非常に限られたクロスモデル転送可能性を示し、クローズドソースMLLMの脆弱性を確実に特定することができない。
本稿では,FORCE(Feature Over-Reliance CorrEction)手法を提案する。
論文 参考訳(メタデータ) (2025-09-25T11:36:56Z) - IPBA: Imperceptible Perturbation Backdoor Attack in Federated Self-Supervised Learning [13.337697403537488]
フェデレート自己教師学習(FSSL)は、分散モデリングとラベルなし表現学習の利点を組み合わせたものである。
研究によると、FSSLはバックドア攻撃に弱いままである。
我々はIPBAと呼ばれるFSSLに対する非受容的で効果的なバックドア攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T14:36:11Z) - FDLLM: A Dedicated Detector for Black-Box LLMs Fingerprinting [20.07438999071414]
大規模言語モデル(LLM)は、デジタルコンテンツ作成の風景を急速に変えつつある。
FD-Datasetは、20の有名なプロプライエタリおよびオープンソースLLMから90,000のテキストサンプルからなる総合的なバイリンガルフィンガープリントベンチマークである。
また,パラメータ効率の低いLow-Rank Adaptation (LoRA) を利用して基礎モデルの微調整を行う新しいフィンガープリント手法であるFDLLMを提案する。
論文 参考訳(メタデータ) (2025-01-27T13:18:40Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - COMMIT: Certifying Robustness of Multi-Sensor Fusion Systems against
Semantic Attacks [24.37030085306459]
本稿では,マルチセンサ融合システムのセマンティックアタックに対する堅牢性を証明した最初のロバストネス認証フレームワークCOMMITを提案する。
特に,マルチモーダルデータを用いたランダム化平滑化を利用した実用的な異方性雑音機構を提案する。
MSFモデルの認証は、MSFモデルの利点を検証するシングルモーダルモデルよりも少なくとも48.39%高いことが示されている。
論文 参考訳(メタデータ) (2024-03-04T18:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。