論文の概要: LAMP: Learning Universal Adversarial Perturbations for Multi-Image Tasks via Pre-trained Models
- arxiv url: http://arxiv.org/abs/2601.21220v1
- Date: Thu, 29 Jan 2026 03:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.54941
- Title: LAMP: Learning Universal Adversarial Perturbations for Multi-Image Tasks via Pre-trained Models
- Title(参考訳): LAMP:事前学習モデルによるマルチイメージタスクに対するユニバーサル・アドバイザ・摂動学習
- Authors: Alvi Md Ishmam, Najibul Haque Sarker, Zaber Ibn Abdul Hakim, Chris Thomas,
- Abstract要約: 本稿では,マルチイメージMLLMを対象とするユニバーサル適応摂動(UAP)を学習するためのブラックボックスであるLAMPを紹介する。
LAMPは注意に基づく制約を適用し、画像間で効果的に情報を集約するのを防ぐ。
LAMPはまた、摂動トークンがクリーントークンに影響を与えるように強制し、全ての入力を変更することなく敵の効果を広げる、新しいクロスイメージの伝染性制約も導入している。
- 参考スコア(独自算出の注目度): 6.127898072805579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable performance across vision-language tasks. Recent advancements allow these models to process multiple images as inputs. However, the vulnerabilities of multi-image MLLMs remain unexplored. Existing adversarial attacks focus on single-image settings and often assume a white-box threat model, which is impractical in many real-world scenarios. This paper introduces LAMP, a black-box method for learning Universal Adversarial Perturbations (UAPs) targeting multi-image MLLMs. LAMP applies an attention-based constraint that prevents the model from effectively aggregating information across images. LAMP also introduces a novel cross-image contagious constraint that forces perturbed tokens to influence clean tokens, spreading adversarial effects without requiring all inputs to be modified. Additionally, an index-attention suppression loss enables a robust position-invariant attack. Experimental results show that LAMP outperforms SOTA baselines and achieves the highest attack success rates across multiple vision-language tasks and models.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚言語タスクにまたがる優れたパフォーマンスを実現している。
近年の進歩により、これらのモデルでは複数の画像を入力として処理することができる。
しかし、マルチイメージMLLMの脆弱性は未解明のままである。
既存の敵攻撃は単一イメージの設定に重点を置いており、多くの現実のシナリオでは非現実的なホワイトボックスの脅威モデルを想定していることが多い。
本稿では,マルチイメージMLLMを対象とするユニバーサル適応摂動(UAP)を学習するためのブラックボックスであるLAMPを紹介する。
LAMPは注意に基づく制約を適用し、画像間で効果的に情報を集約するのを防ぐ。
LAMPはまた、摂動トークンがクリーントークンに影響を与えるように強制し、全ての入力を変更することなく敵の効果を広げる、新しいクロスイメージの伝染性制約も導入している。
さらに、インデックスアテンション抑制損失は、ロバストな位置不変攻撃を可能にする。
実験の結果,LAMPはSOTAのベースラインより優れており,複数の視覚言語タスクやモデルにおける攻撃成功率が最も高いことがわかった。
関連論文リスト
- Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。
本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文 参考訳(メタデータ) (2025-12-06T04:20:13Z) - Adversarial Confusion Attack: Disrupting Multimodal Large Language Models [1.4037095606573826]
マルチモーダル大言語モデル(MLLM)に対する新たな脅威クラスであるAdversarial Confusion Attackを導入する。
ジェイルブレイクやターゲットの誤分類とは異なり、目標は、モデルが不整合または確実な出力を生成するような、系統的な破壊を誘発することである。
現実的な応用としては、MLLMを搭載したAIエージェントが確実に動作しないように、そのような敵対的なイメージをウェブサイトに埋め込むことがある。
論文 参考訳(メタデータ) (2025-11-25T17:00:31Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [66.02261367232256]
MLLM(Multimodal Large Language Models)は、視覚的理解と生成を統一することを目的としている。
既存のアプローチは空間的トークンに依存しており、画像パッチは空間的順序に応じてエンコードされ配置される。
本稿では,個別の視覚トークンを学習するために拡散時間ステップを再構成し,適切な視覚言語を構築する。
論文 参考訳(メタデータ) (2025-04-20T16:14:28Z) - Doubly-Universal Adversarial Perturbations: Deceiving Vision-Language Models Across Both Images and Text with a Single Perturbation [15.883062174902093]
VLM(Large Vision-Language Models)は、視覚エンコーダとLLM(Large Language Model)を統合することで、マルチモーダルタスクにまたがる顕著な性能を示す。
VLMに特化して設計された新しいUAPについて紹介する:Douubly-Universal Adversarial Perturbation (Douubly-UAP)
論文 参考訳(メタデータ) (2024-12-11T05:23:34Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - Adversarial Robustness for Visual Grounding of Multimodal Large Language Models [49.71757071535619]
MLLM(Multi-modal Large Language Models)は近年,様々な視覚言語タスクのパフォーマンス向上を実現している。
MLLMでは、視覚的グラウンドリングの対角的堅牢性は未発見のままである。
本稿では,次の3つの攻撃パラダイムを提案する。
論文 参考訳(メタデータ) (2024-05-16T10:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。