論文の概要: VALD: Multi-Stage Vision Attack Detection for Efficient LVLM Defense
- arxiv url: http://arxiv.org/abs/2602.19570v1
- Date: Mon, 23 Feb 2026 07:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.713749
- Title: VALD: Multi-Stage Vision Attack Detection for Efficient LVLM Defense
- Title(参考訳): VALD:高能率LVLM防衛のための多段目視検出
- Authors: Nadav Kadvil, Ayellet Tal,
- Abstract要約: LVLM(Large Vision-Language Models)は、出力を可視かつ不正確な応答に微妙にバイアスする敵画像に対して脆弱である。
本稿では,画像変換とエージェントデータの統合を組み合わせることで,モデル動作の正しさを回復する汎用的,効率的な,トレーニング不要なディフェンスを提案する。
- 参考スコア(独自算出の注目度): 12.418532541734194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) can be vulnerable to adversarial images that subtly bias their outputs toward plausible yet incorrect responses. We introduce a general, efficient, and training-free defense that combines image transformations with agentic data consolidation to recover correct model behavior. A key component of our approach is a two-stage detection mechanism that quickly filters out the majority of clean inputs. We first assess image consistency under content-preserving transformations at negligible computational cost. For more challenging cases, we examine discrepancies in a text-embedding space. Only when necessary do we invoke a powerful LLM to resolve attack-induced divergences. A key idea is to consolidate multiple responses, leveraging both their similarities and their differences. We show that our method achieves state-of-the-art accuracy while maintaining notable efficiency: most clean images skip costly processing, and even in the presence of numerous adversarial examples, the overhead remains minimal.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、出力を可視かつ不正確な応答に微妙にバイアスする敵画像に対して脆弱である。
本稿では,画像変換とエージェントデータの統合を組み合わせることで,モデル動作の正しさを回復する汎用的,効率的な,トレーニング不要なディフェンスを提案する。
このアプローチの重要なコンポーネントは、クリーンな入力の大部分を素早くフィルタする2段階検出メカニズムです。
まず、コンテンツ保存変換における画像の一貫性を、無視可能な計算コストで評価する。
より困難なケースでは、テキスト埋め込み空間における不一致について検討する。
必要なときにのみ強力なLDMを起動して、攻撃によって引き起こされる発散を解決する。
重要なアイデアは、複数のレスポンスを統合し、それらの類似点と相違点の両方を活用することだ。
多くのクリーンな画像はコストのかかる処理をスキップし、多くの逆例が存在する場合でもオーバーヘッドは最小限に抑えられる。
関連論文リスト
- Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models [67.45032003041399]
本稿では,MLLMに対する敵例の転送可能性を高めるために,MPCAttack(Multi-Paradigm Collaborative Attack)フレームワークを提案する。
MPCOは異なるパラダイム表現の重要性を適応的にバランスさせ、グローバルな最適化を導く。
我々のソリューションは、オープンソースおよびクローズドソースMLLMに対する標的および未ターゲットの攻撃において、常に最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2026-03-05T06:01:26Z) - Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation [81.40978077888693]
対照的に、CLIP(Contrastive Language- Image Pre-training)は、下流のパフォーマンスにおいて重要なボトルネックとなっている。
近年のソリューションでは、拡散モデルを用いて、CLIP視覚トークンに画像再構成を条件付けることで表現を強化する。
我々は、より包括的な視覚表現を追求するために、コントラスト信号を拡散に基づく再構成に統合する。
論文 参考訳(メタデータ) (2026-03-05T04:45:49Z) - More Images, More Problems? A Controlled Analysis of VLM Failure Modes [80.64323947730905]
大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。
LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
論文 参考訳(メタデータ) (2026-01-12T18:45:13Z) - CoDefend: Cross-Modal Collaborative Defense via Diffusion Purification and Prompt Optimization [4.6467356929461925]
MLLM(Multimodal Large Language Models)は、画像キャプション、視覚的質問応答、モーダル間推論といったタスクにおいて顕著な成功を収めている。
彼らのマルチモーダルな性質は敵の脅威に晒され、攻撃者はモダリティまたは共同で有害な、誤解を招く、あるいは政策に違反するアウトプットを誘導することができる。
敵の訓練や入力の浄化といった既存の防衛戦略は、顕著な制限に直面している。
本稿では,2対の逆方向のクリーンな画像データセットをファインチューン拡散モデルに活用する,教師付き拡散に基づくDenoisingフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T07:44:54Z) - ForensicsSAM: Toward Robust and Unified Image Forgery Detection and Localization Resisting to Adversarial Attack [56.0056378072843]
高い転送性を持つ逆画像は上流モデルでのみ作成可能であることを示す。
本稿では,IFDLフレームワークを組み込んだForensicsSAMを提案する。
論文 参考訳(メタデータ) (2025-08-10T16:03:44Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - VEAttack: Downstream-agnostic Vision Encoder Attack against Large Vision Language Models [33.120141513366136]
LVLM(Large Vision-Language Models)は、マルチモーダル理解と生成において顕著な能力を示す。
既存の効果的な攻撃は常にタスク固有のホワイトボックス設定に集中する。
我々は,LVLMのビジョンエンコーダのみをターゲットとした,シンプルで効果的なビジョンアタック(VEAttack)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:46:04Z) - Defending LVLMs Against Vision Attacks through Partial-Perception Supervision [30.01852922876901]
近年、LVLM(Large Vision Language Models)の悪意ある注入や摂動画像に対する脆弱性に関する重大な懸念が提起されている。
DPS(Deefense through partial-Perception Supervision)と呼ばれるブラックボックス・トレーニング不要な手法を提案する。
DPSでは、攻撃時に部分的なイメージ理解に基づいて応答を調整することができ、クリーンな入力に対して元の応答を確実に維持することができる。
論文 参考訳(メタデータ) (2024-12-17T09:38:58Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - IRAD: Implicit Representation-driven Image Resampling against Adversarial Attacks [16.577595936609665]
本稿では,画像再サンプリングという,敵対的攻撃に対する新たなアプローチを提案する。
画像再サンプリングは、幾何学的変換によって指定されたシーンの再調整や再レンダリングの過程をシミュレートして、離散画像を新しい画像に変換する。
本手法は,クリーンな画像の精度を維持しつつ,多様な深層モデルの様々な攻撃に対する対角的堅牢性を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T11:19:32Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。