Fugu-MT 論文翻訳(概要): VALD: Multi-Stage Vision Attack Detection for Efficient LVLM Defense

論文の概要: VALD: Multi-Stage Vision Attack Detection for Efficient LVLM Defense

arxiv url: http://arxiv.org/abs/2602.19570v1
Date: Mon, 23 Feb 2026 07:39:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.713749
Title: VALD: Multi-Stage Vision Attack Detection for Efficient LVLM Defense
Title（参考訳）: VALD:高能率LVLM防衛のための多段目視検出
Authors: Nadav Kadvil, Ayellet Tal,
Abstract要約: LVLM(Large Vision-Language Models)は、出力を可視かつ不正確な応答に微妙にバイアスする敵画像に対して脆弱である。本稿では,画像変換とエージェントデータの統合を組み合わせることで,モデル動作の正しさを回復する汎用的,効率的な,トレーニング不要なディフェンスを提案する。
参考スコア（独自算出の注目度）: 12.418532541734194
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Vision-Language Models (LVLMs) can be vulnerable to adversarial images that subtly bias their outputs toward plausible yet incorrect responses. We introduce a general, efficient, and training-free defense that combines image transformations with agentic data consolidation to recover correct model behavior. A key component of our approach is a two-stage detection mechanism that quickly filters out the majority of clean inputs. We first assess image consistency under content-preserving transformations at negligible computational cost. For more challenging cases, we examine discrepancies in a text-embedding space. Only when necessary do we invoke a powerful LLM to resolve attack-induced divergences. A key idea is to consolidate multiple responses, leveraging both their similarities and their differences. We show that our method achieves state-of-the-art accuracy while maintaining notable efficiency: most clean images skip costly processing, and even in the presence of numerous adversarial examples, the overhead remains minimal.
Abstract（参考訳）: LVLM(Large Vision-Language Models)は、出力を可視かつ不正確な応答に微妙にバイアスする敵画像に対して脆弱である。本稿では,画像変換とエージェントデータの統合を組み合わせることで,モデル動作の正しさを回復する汎用的,効率的な,トレーニング不要なディフェンスを提案する。このアプローチの重要なコンポーネントは、クリーンな入力の大部分を素早くフィルタする2段階検出メカニズムです。まず、コンテンツ保存変換における画像の一貫性を、無視可能な計算コストで評価する。より困難なケースでは、テキスト埋め込み空間における不一致について検討する。必要なときにのみ強力なLDMを起動して、攻撃によって引き起こされる発散を解決する。重要なアイデアは、複数のレスポンスを統合し、それらの類似点と相違点の両方を活用することだ。多くのクリーンな画像はコストのかかる処理をスキップし、多くの逆例が存在する場合でもオーバーヘッドは最小限に抑えられる。

関連論文リスト

More Images, More Problems? A Controlled Analysis of VLM Failure Modes [80.64323947730905]
大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。 LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
論文参考訳（メタデータ） (2026-01-12T18:45:13Z)
ForensicsSAM: Toward Robust and Unified Image Forgery Detection and Localization Resisting to Adversarial Attack [56.0056378072843]
高い転送性を持つ逆画像は上流モデルでのみ作成可能であることを示す。本稿では,IFDLフレームワークを組み込んだForensicsSAMを提案する。
論文参考訳（メタデータ） (2025-08-10T16:03:44Z)
Defending LVLMs Against Vision Attacks through Partial-Perception Supervision [30.01852922876901]
近年、LVLM(Large Vision Language Models)の悪意ある注入や摂動画像に対する脆弱性に関する重大な懸念が提起されている。 DPS(Deefense through partial-Perception Supervision)と呼ばれるブラックボックス・トレーニング不要な手法を提案する。 DPSでは、攻撃時に部分的なイメージ理解に基づいて応答を調整することができ、クリーンな入力に対して元の応答を確実に維持することができる。
論文参考訳（メタデータ） (2024-12-17T09:38:58Z)
Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
IRAD: Implicit Representation-driven Image Resampling against Adversarial Attacks [16.577595936609665]
本稿では,画像再サンプリングという,敵対的攻撃に対する新たなアプローチを提案する。画像再サンプリングは、幾何学的変換によって指定されたシーンの再調整や再レンダリングの過程をシミュレートして、離散画像を新しい画像に変換する。本手法は,クリーンな画像の精度を維持しつつ,多様な深層モデルの様々な攻撃に対する対角的堅牢性を著しく向上することを示す。
論文参考訳（メタデータ） (2023-10-18T11:19:32Z)
Improving Adversarial Robustness of Masked Autoencoders via Test-time Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文参考訳（メタデータ） (2023-08-20T16:27:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。