論文の概要: Seeing the Threat: Vulnerabilities in Vision-Language Models to Adversarial Attack
- arxiv url: http://arxiv.org/abs/2505.21967v1
- Date: Wed, 28 May 2025 04:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.416068
- Title: Seeing the Threat: Vulnerabilities in Vision-Language Models to Adversarial Attack
- Title(参考訳): 脅威を見る:敵対的攻撃に対する視覚言語モデルにおける脆弱性
- Authors: Juan Ren, Mark Dras, Usman Naseem,
- Abstract要約: LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な機能を示す。
従来の敵攻撃がLVLMに埋め込まれた安全機構を回避できる理由を明らかにするために,系統的な表現解析を行う。
LVLMに対する敵攻撃のための2段階評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.988475248750045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have shown remarkable capabilities across a wide range of multimodal tasks. However, their integration of visual inputs introduces expanded attack surfaces, thereby exposing them to novel security vulnerabilities. In this work, we conduct a systematic representational analysis to uncover why conventional adversarial attacks can circumvent the safety mechanisms embedded in LVLMs. We further propose a novel two stage evaluation framework for adversarial attacks on LVLMs. The first stage differentiates among instruction non compliance, outright refusal, and successful adversarial exploitation. The second stage quantifies the degree to which the model's output fulfills the harmful intent of the adversarial prompt, while categorizing refusal behavior into direct refusals, soft refusals, and partial refusals that remain inadvertently helpful. Finally, we introduce a normative schema that defines idealized model behavior when confronted with harmful prompts, offering a principled target for safety alignment in multimodal systems.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な機能を示す。
しかし、視覚入力の統合により、攻撃面が拡張され、新たなセキュリティ脆弱性が露呈する。
本研究では,従来の敵攻撃がLVLMに埋め込まれた安全機構を回避できる理由を明らかにするために,系統的な表現解析を行う。
さらに,LVLMに対する敵攻撃に対する2段階評価フレームワークを提案する。
第1段階は、命令の非コンプライアンス、完全拒否、そして敵の搾取の成功を区別する。
第2段階では、モデルの出力が敵のプロンプトの有害な意図を満たす程度を定量化するとともに、拒絶動作を直接の拒絶、ソフトな拒絶、そして不注意に有用な部分的な拒絶に分類する。
最後に、有害なプロンプトに直面するときの理想的なモデル行動を定義する規範的スキーマを導入し、マルチモーダルシステムにおける安全アライメントの原則的目標を提供する。
関連論文リスト
- Safety Alignment Can Be Not Superficial With Explicit Safety Signals [8.297367440457508]
大規模言語モデル(LLM)の安全性アライメントに関する最近の研究は、既存のアプローチがしばしば表面的に機能することを明らかにしている。
既存のアライメントアプローチでは、アライメントプロセス中にモデルが暗黙的に安全関連推論タスクを学習できると考えられる。
安全関連バイナリ分類タスクを明示的に導入し,その信号を注意と復号化戦略に統合することにより,この曖昧さを解消する。
論文 参考訳(メタデータ) (2025-05-19T20:40:46Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文 参考訳(メタデータ) (2025-03-08T17:33:55Z) - Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - Visual Adversarial Attack on Vision-Language Models for Autonomous Driving [34.520523134588345]
視覚言語モデル(VLM)は推論能力を高めることにより、かなり高度な自律運転(AD)を持つ。
これらのモデルは、敵の攻撃に対して非常に脆弱なままである。
本稿では,ADVLMに特化して設計された最初の視覚的敵攻撃フレームワークであるADvLMを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:09:43Z) - Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks [34.40254709148148]
事前学習された視覚言語モデル(VLM)は、画像および自然言語理解において顕著な性能を示した。
彼らの潜在的な安全性と堅牢性の問題は、敵がシステムを回避し、悪意のある攻撃を通じて有害なコンテンツを生成することを懸念する。
本稿では,マルチモーダルなセマンティック・アップデートに基づいて,敵対的事例の生成を反復的に促進するアタック・チェーン(CoA)を提案する。
論文 参考訳(メタデータ) (2024-11-24T05:28:07Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。