論文の概要: SmoothGuard: Defending Multimodal Large Language Models with Noise Perturbation and Clustering Aggregation
- arxiv url: http://arxiv.org/abs/2510.26830v1
- Date: Wed, 29 Oct 2025 14:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.856265
- Title: SmoothGuard: Defending Multimodal Large Language Models with Noise Perturbation and Clustering Aggregation
- Title(参考訳): SmoothGuard: ノイズ摂動とクラスタリングによるマルチモーダル大言語モデルの構築
- Authors: Guangzhi Su, Shuchang Huang, Yutong Ke, Zhuohang Liu, Long Qian, Kaizhu Huang,
- Abstract要約: MLLM(Multimodal large language model)は、テキスト入力と視覚入力を共同で推論することで、様々なタスクにまたがる印象的なパフォーマンスを実現している。
その成功にもかかわらず、これらのモデルは敵の操作に対して非常に脆弱であり、配置の安全性と信頼性に関する懸念を提起している。
我々はSmoothGuardを紹介した。SmoothGuardは、ランダムノイズ注入とクラスタリングに基づく予測アグリゲーションによってMLLMのロバスト性を高める軽量でモデルに依存しない防御フレームワークである。
- 参考スコア(独自算出の注目度): 23.12897429892901
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal large language models (MLLMs) have achieved impressive performance across diverse tasks by jointly reasoning over textual and visual inputs. Despite their success, these models remain highly vulnerable to adversarial manipulations, raising concerns about their safety and reliability in deployment. In this work, we first generalize an approach for generating adversarial images within the HuggingFace ecosystem and then introduce SmoothGuard, a lightweight and model-agnostic defense framework that enhances the robustness of MLLMs through randomized noise injection and clustering-based prediction aggregation. Our method perturbs continuous modalities (e.g., images and audio) with Gaussian noise, generates multiple candidate outputs, and applies embedding-based clustering to filter out adversarially influenced predictions. The final answer is selected from the majority cluster, ensuring stable responses even under malicious perturbations. Extensive experiments on POPE, LLaVA-Bench (In-the-Wild), and MM-SafetyBench demonstrate that SmoothGuard improves resilience to adversarial attacks while maintaining competitive utility. Ablation studies further identify an optimal noise range (0.1-0.2) that balances robustness and utility.
- Abstract(参考訳): MLLM(Multimodal large language model)は、テキスト入力と視覚入力を共同で推論することで、様々なタスクにまたがる印象的なパフォーマンスを実現している。
その成功にもかかわらず、これらのモデルは敵の操作に対して非常に脆弱であり、配置の安全性と信頼性に関する懸念を提起している。
本研究ではまず,HuggingFaceエコシステム内で逆画像を生成するアプローチを一般化し,ランダムなノイズ注入とクラスタリングに基づく予測アグリゲーションによってMLLMのロバスト性を高める軽量かつモデルに依存しないディフェンスフレームワークであるSmoothGuardを導入する。
提案手法は,ガウス雑音による連続的なモーダル性(画像や音声など)を摂動させ,複数の候補出力を生成し,組込みクラスタリングを適用して逆の影響のある予測をフィルタリングする。
最後の答えは多数派クラスタから選択され、悪意のある摂動の下でも安定した応答が保証される。
POPE、LLaVA-Bench(In-the-Wild)、MM-SafetyBenchに関する大規模な実験は、SmoothGuardが競争力を維持しながら敵の攻撃に対する弾力性を改善することを示した。
アブレーション研究により、ロバスト性と実用性のバランスをとる最適なノイズ範囲(0.1-0.2)がさらに特定される。
関連論文リスト
- ENJ: Optimizing Noise with Genetic Algorithms to Jailbreak LSMs [61.09812971042288]
進化的騒音ジェイルブレイク(ENJ)
本稿では,環境騒音を受動的干渉から積極的に最適化可能な攻撃キャリアへ変換する遺伝的アルゴリズムを提案する。
複数の主流音声モデルに対する実験により、ENJの攻撃効果は既存のベースライン法よりもかなり優れていることが示された。
論文 参考訳(メタデータ) (2025-09-14T06:39:38Z) - Sampling-aware Adversarial Attacks Against Large Language Models [52.30089653615172]
既存の敵攻撃は、通常、単一点の欲望世代において有害な反応を標的とする。
本研究では,有害な応答を抽出する目的のために,攻撃時のモデル出力の繰り返しサンプリングを行う。
既存の攻撃にサンプリングを統合することで、成功率が最大37%向上し、最大2桁の効率が向上することを示す。
論文 参考訳(メタデータ) (2025-07-06T16:13:33Z) - Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks [10.44351773183656]
VLM(Vision-Language Models)は、ノイズや破損した画像を処理する際に、ジェイルブレイク攻撃に対して脆弱である。
この課題に対処するために、画像とテキストのペアが一致しないマルチモーダル安全データセットであるRobust-VLGuardを提案する。
より強力な最適化に基づく視覚摂動攻撃のための拡散モデルを用いたDiffPure-VLMを提案する。
論文 参考訳(メタデータ) (2025-04-02T02:35:19Z) - Robust-LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for Multi-modal Large Language Models [26.656858396343726]
MLLM(Multi-modal Large Language Models)は、視覚言語タスクにおいて優れているが、視覚的逆境の摂動に弱いままである。
既存の手法では、ImageNet-scaleデータ上でCLIPビジョンエンコーダに制約付き逆調整を適用することにより、これらのリスクを軽減する方法が提案されている。
本稿では,大規模データに対して逆向きに事前学習された既存の視覚分類モデルを活用する方法を提案する。
論文 参考訳(メタデータ) (2025-02-03T17:59:45Z) - Smoothed Embeddings for Robust Language Models [11.97873981355746]
大規模言語モデル(LLM)は、アライメントを抑え、有害な出力を誘導するジェイルブレイク攻撃に対して脆弱である。
本稿では,埋め込みベクトルにランダムノイズを付加し,各出力トークンの生成時にアグリゲーションを行うRESTAディフェンスを提案する。
本実験は,本手法がベースラインディフェンスと比較して,実用上のトレードオフよりも優れたロバスト性を実現することを示す。
論文 参考訳(メタデータ) (2025-01-27T20:57:26Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Learning to Generate Noise for Multi-Attack Robustness [126.23656251512762]
対人学習は、対人摂動に対する既存の方法の感受性を回避できる手法の1つとして登場した。
安全クリティカルなアプリケーションでは、攻撃者は様々な敵を採用してシステムを騙すことができるため、これらの手法は極端に便利である。
本稿では,複数種類の攻撃に対するモデルの堅牢性を改善するために,ノイズ発生を明示的に学習するメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T10:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。