論文の概要: Jailbreaking Large Vision Language Models in Intelligent Transportation Systems
- arxiv url: http://arxiv.org/abs/2511.13892v1
- Date: Mon, 17 Nov 2025 20:29:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.786859
- Title: Jailbreaking Large Vision Language Models in Intelligent Transportation Systems
- Title(参考訳): インテリジェント交通システムにおける大規模視覚言語モデルの脱獄
- Authors: Badhan Chandra Das, Md Tasnim Jawad, Md Jueal Mia, M. Hadi Amini, Yanzhao Wu,
- Abstract要約: 本稿では,インテリジェントトランスポーテーションシステムに組み込まれたLVLMの脆弱性を系統的に解析する。
画像タイポグラフィ操作とマルチターンプロンプトによりLVLMの脆弱性を悪用する新しいジェイルブレイク攻撃を導入する。
モデルが不適切な応答を発生させないための多層型応答フィルタリング防衛手法を提案する。
- 参考スコア(独自算出の注目度): 2.7051096873824982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision Language Models (LVLMs) demonstrate strong capabilities in multimodal reasoning and many real-world applications, such as visual question answering. However, LVLMs are highly vulnerable to jailbreaking attacks. This paper systematically analyzes the vulnerabilities of LVLMs integrated in Intelligent Transportation Systems (ITS) under carefully crafted jailbreaking attacks. First, we carefully construct a dataset with harmful queries relevant to transportation, following OpenAI's prohibited categories to which the LVLMs should not respond. Second, we introduce a novel jailbreaking attack that exploits the vulnerabilities of LVLMs through image typography manipulation and multi-turn prompting. Third, we propose a multi-layered response filtering defense technique to prevent the model from generating inappropriate responses. We perform extensive experiments with the proposed attack and defense on the state-of-the-art LVLMs (both open-source and closed-source). To evaluate the attack method and defense technique, we use GPT-4's judgment to determine the toxicity score of the generated responses, as well as manual verification. Further, we compare our proposed jailbreaking method with existing jailbreaking techniques and highlight severe security risks involved with jailbreaking attacks with image typography manipulation and multi-turn prompting in the LVLMs integrated in ITS.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、マルチモーダル推論や視覚的質問応答など多くの実世界のアプリケーションにおいて強力な能力を示す。
しかし、LVLMは脱獄攻撃に対して非常に脆弱である。
本稿では,入所者に対する入所者に対して,入所者に対する情報伝達システム(ITS)に組み込まれているLVLMの脆弱性を系統的に解析する。
まず、LVLMが対応すべきでないOpenAIの禁止されたカテゴリに従って、輸送に関連する有害なクエリを持つデータセットを慎重に構築する。
第2に,画像タイポグラフィ操作とマルチターンプロンプトにより,LVLMの脆弱性を悪用する新しいジェイルブレイク攻撃を導入する。
第3に,モデルが不適切な応答を発生させないための多層型応答フィルタリング防衛手法を提案する。
我々は,現在最先端のLVLM(オープンソースとクローズドソースの両方)に対する攻撃と防御について広範な実験を行った。
攻撃方法と防御技術を評価するため,GPT-4の判定を用いて,生成した応答の毒性スコアを判定し,手動による検証を行う。
さらに,本提案手法を既存のジェイルブレイク手法と比較し,画像タイポグラフィ操作とマルチターンプロンプトによるジェイルブレイク攻撃に伴う深刻なセキュリティリスクをITSに統合したLVLMで明らかにした。
関連論文リスト
- Enhanced MLLM Black-Box Jailbreaking Attacks and Defenses [0.6729108277517128]
テキストと画像のプロンプトによるブラックボックスジェイルブレイク手法を提案し,MLLMの評価を行う。
特に、挑発的指示を伴うテキストプロンプトと、突然変異やマルチイメージ機能を導入した画像プロンプトを設計した。
実験の結果,提案手法はオープンソースのMLLMとクローズドソースMLLMの両方のセキュリティを評価する能力を向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-10-24T07:35:37Z) - PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking [3.718606661938873]
本稿では、ソフトウェアセキュリティからROP(Return-Oriented Programming)技術にインスパイアされた、新しい効果的なジェイルブレイクフレームワークを提案する。
提案手法では,有害な指示を視覚ガジェットの系列に分解する。
以上の結果から,LVLMの構成的推論能力を利用した,重要かつ過小評価された脆弱性が判明した。
論文 参考訳(メタデータ) (2025-07-29T07:13:56Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。
本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。
我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文 参考訳(メタデータ) (2025-04-18T08:38:56Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。