Fugu-MT 論文翻訳(概要): Doubly-Universal Adversarial Perturbations: Deceiving Vision-Language Models Across Both Images and Text with a Single Perturbation

論文の概要: Doubly-Universal Adversarial Perturbations: Deceiving Vision-Language Models Across Both Images and Text with a Single Perturbation

arxiv url: http://arxiv.org/abs/2412.08108v2
Date: Thu, 19 Dec 2024 05:01:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 14:17:19.689643
Title: Doubly-Universal Adversarial Perturbations: Deceiving Vision-Language Models Across Both Images and Text with a Single Perturbation
Title（参考訳）: 二重対外対角摂動:単一摂動による画像とテキスト間の視覚・言語モデルの決定
Authors: Hee-Seon Kim, Minbeom Kim, Changick Kim,
Abstract要約: VLM(Large Vision-Language Models)は、視覚エンコーダとLLM(Large Language Model)を統合することで、マルチモーダルタスクにまたがる顕著な性能を示す。 VLMに特化して設計された新しいUAPについて紹介する:Douubly-Universal Adversarial Perturbation (Douubly-UAP)
参考スコア（独自算出の注目度）: 15.883062174902093
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Vision-Language Models (VLMs) have demonstrated remarkable performance across multimodal tasks by integrating vision encoders with large language models (LLMs). However, these models remain vulnerable to adversarial attacks. Among such attacks, Universal Adversarial Perturbations (UAPs) are especially powerful, as a single optimized perturbation can mislead the model across various input images. In this work, we introduce a novel UAP specifically designed for VLMs: the Doubly-Universal Adversarial Perturbation (Doubly-UAP), capable of universally deceiving VLMs across both image and text inputs. To successfully disrupt the vision encoder's fundamental process, we analyze the core components of the attention mechanism. After identifying value vectors in the middle-to-late layers as the most vulnerable, we optimize Doubly-UAP in a label-free manner with a frozen model. Despite being developed as a black-box to the LLM, Doubly-UAP achieves high attack success rates on VLMs, consistently outperforming baseline methods across vision-language tasks. Extensive ablation studies and analyses further demonstrate the robustness of Doubly-UAP and provide insights into how it influences internal attention mechanisms.
Abstract（参考訳）: VLM(Large Vision-Language Models)は、視覚エンコーダとLLM(Large Language Model)を統合することで、マルチモーダルタスクにまたがる顕著な性能を示す。しかし、これらのモデルは敵の攻撃に弱いままである。このような攻撃の中で、Universal Adversarial Perturbations (UAP) は特に強力であり、単一の最適化された摂動は様々な入力画像間でモデルを誤解させる可能性がある。本稿では,VLM に特化して設計された新しい UAP について紹介する: 両画像およびテキストの入力に対して VLM を普遍的に決定できる二重・普遍的摂動 (Dubly-Universal Adversarial Perturbation) (Dubly-UAP) である。視覚エンコーダの基本プロセスの破壊に成功するために,注意機構のコアコンポーネントを解析する。中間層から後期層までの値ベクトルを最も脆弱なものとして同定した後、凍結モデルを用いてラベルフリーでDouubly-UAPを最適化する。 LLMのブラックボックスとして開発されたにもかかわらず、Dubly-UAPはVLMに対して高い攻撃成功率を達成し、視覚言語タスクのベースラインメソッドを一貫して上回っている。広範囲にわたるアブレーション研究と分析は、Double-UAPの堅牢性をさらに証明し、それが内部の注意機構にどのように影響するかについての洞察を提供する。

関連論文リスト

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Attention! You Vision Language Model Could Be Maliciously Manipulated [5.504125658123538]
視覚言語モデルマニピュレーションアタック(VMA)を提案する。 VMAは、対向摂動を効果的に最適化するために、一階と二階の運動量最適化技術と微分可能な変換機構を統合する。脱獄、ハイジャック、プライバシー侵害、Denial-of-Service、スポンジの生成など、さまざまな攻撃を実装するために利用することができる。
論文参考訳（メタデータ） (2025-05-26T12:38:58Z)
Transferable Adversarial Attacks on Black-Box Vision-Language Models [63.22532779621001]
敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
論文参考訳（メタデータ） (2025-05-02T06:51:11Z)
Improving Adversarial Transferability in MLLMs via Dynamic Vision-Language Alignment Attack [16.70399451598529]
DynVLAアタック(Dynamic Vision-Language Alignment, DynVLA)は,視覚言語コネクタに動的摂動を注入し,様々なモデルの視覚言語アライメントの一般化を促進する手法である。実験の結果,DynVLAはBLIP2,InstructBLIP,MiniGPT4,LLaVA,およびGeminiなどのクローズドソースモデルなど,さまざまなMLLMの逆例の転送可能性を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2025-02-27T01:33:19Z)
Robust-LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for Multi-modal Large Language Models [26.656858396343726]
MLLM(Multi-modal Large Language Models)は、視覚言語タスクにおいて優れているが、視覚的逆境の摂動に弱いままである。既存の手法では、ImageNet-scaleデータ上でCLIPビジョンエンコーダに制約付き逆調整を適用することにより、これらのリスクを軽減する方法が提案されている。本稿では,大規模データに対して逆向きに事前学習された既存の視覚分類モデルを活用する方法を提案する。
論文参考訳（メタデータ） (2025-02-03T17:59:45Z)
Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。 I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文参考訳（メタデータ） (2025-01-03T09:25:04Z)
Visual Adversarial Attack on Vision-Language Models for Autonomous Driving [34.520523134588345]
視覚言語モデル(VLM)は推論能力を高めることにより、かなり高度な自律運転(AD)を持つ。これらのモデルは、敵の攻撃に対して非常に脆弱なままである。本稿では,ADVLMに特化して設計された最初の視覚的敵攻撃フレームワークであるADvLMを提案する。
論文参考訳（メタデータ） (2024-11-27T12:09:43Z)
A Unified Understanding of Adversarial Vulnerability Regarding Unimodal Models and Vision-Language Pre-training Models [7.350203999073509]
FGA(Feature Guidance Attack)は、テキスト表現を用いてクリーンな画像の摂動を誘導する新しい手法である。提案手法は, 各種データセット, 下流タスク, ブラックボックスとホワイトボックスの両方で, 安定かつ効果的な攻撃能力を示す。
論文参考訳（メタデータ） (2024-07-25T06:10:33Z)
One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models [47.14654793461]
クロスモーダル条件 (C-PGC) を備えたコントラスト学習型摂動発電機を提案する。 C-PGCは、効果的なガイダンスとして、一方的な情報と横断的な情報の両方を取り入れている。実験の結果、C-PGCは敵のサンプルを元の領域から遠ざけることに成功した。
論文参考訳（メタデータ） (2024-06-08T15:01:54Z)
Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文参考訳（メタデータ） (2023-12-05T07:29:14Z)
Set-level Guidance Attack: Boosting Adversarial Transferability of Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文参考訳（メタデータ） (2023-07-26T09:19:21Z)
Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文参考訳（メタデータ） (2023-06-22T22:13:03Z)
On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文参考訳（メタデータ） (2023-05-26T13:49:44Z)
Learning to Generate Image Source-Agnostic Universal Adversarial Perturbations [65.66102345372758]
普遍対向摂動(UAP)は複数の画像を同時に攻撃することができる。既存のUAPジェネレータは、画像が異なる画像ソースから描画される際には未開発である。数発の学習をカスタマイズした例として,UAP生成の新たな視点を考察する。
論文参考訳（メタデータ） (2020-09-29T01:23:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。