論文の概要: FigStep: Jailbreaking Large Vision-language Models via Typographic
Visual Prompts
- arxiv url: http://arxiv.org/abs/2311.05608v1
- Date: Thu, 9 Nov 2023 18:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 14:02:32.686567
- Title: FigStep: Jailbreaking Large Vision-language Models via Typographic
Visual Prompts
- Title(参考訳): FigStep:タイポグラフィー・ビジュアル・プロンプトによる視覚言語モデルの脱獄
- Authors: Yichen Gong and Delong Ran and Jinyuan Liu and Conglei Wang and
Tianshuo Cong and Anyu Wang and Sisi Duan and Xiaoyun Wang
- Abstract要約: We propose FigStep, a novel jailbreaking framework against large vision- language model (VLMs)。
実験の結果,FigStepはオープンソースVLM,LLaVA,MiniGPT4の2つのファミリに対して平均94.8%の攻撃成功率が得られることがわかった。
FigStepは、視覚とテキストのモダリティの間に新しい安全アライメントの必要性を強調している。
- 参考スコア(独自算出の注目度): 14.948652267916149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (VLMs) like GPT-4V represent an unprecedented
revolution in the field of artificial intelligence (AI). Compared to
single-modal large language models (LLMs), VLMs possess more versatile
capabilities by incorporating additional modalities (e.g., images). Meanwhile,
there's a rising enthusiasm in the AI community to develop open-source VLMs,
such as LLaVA and MiniGPT4, which, however, have not undergone rigorous safety
assessment. In this paper, to demonstrate that more modalities lead to
unforeseen AI safety issues, we propose FigStep, a novel jailbreaking framework
against VLMs. FigStep feeds harmful instructions into VLMs through the image
channel and then uses benign text prompts to induce VLMs to output contents
that violate common AI safety policies. Our experimental results show that
FigStep can achieve an average attack success rate of 94.8% across 2 families
of popular open-source VLMs, LLaVA and MiniGPT4 (a total of 5 VLMs). Moreover,
we demonstrate that the methodology of FigStep can even jailbreak GPT-4V, which
already leverages several system-level mechanisms to filter harmful queries.
Above all, our experimental results reveal that VLMs are vulnerable to
jailbreaking attacks, which highlights the necessity of novel safety alignments
between visual and textual modalities.
- Abstract(参考訳): GPT-4Vのような大規模な視覚言語モデル(VLM)は、人工知能(AI)分野における前例のない革命を表している。
llms(single-modal large language model)と比較して、vlmは追加のモダリティ(画像など)を組み込むことでより汎用性を持つ。
一方、LLaVAやMiniGPT4のようなオープンソースのVLMを開発するというAIコミュニティへの熱意は高まっている。
本稿では,VLMに対する新たなジェイルブレイクフレームワークであるFigStepを提案する。
FigStepはイメージチャネルを通じて有害な命令をVLMに供給し、良心的なテキストプロンプトを使用してVLMを誘導し、一般的なAI安全ポリシーに違反したコンテンツを出力する。
実験の結果,FigStepはオープンソースVLM,LLaVA,MiniGPT4(合計5VLM)の2つのファミリに対して平均94.8%の攻撃成功率を達成できることがわかった。
さらに、FigStepの手法は、有害なクエリをフィルタリングするために複数のシステムレベルメカニズムを既に活用しているGPT-4Vをジェイルブレイクさせることもできることを示した。
その結果,vlmはジェイルブレイク攻撃に対して脆弱であることが判明し,視覚とテキスト間の新たな安全アライメントの必要性が浮き彫りになった。
関連論文リスト
- Investigating the prompt leakage effect and black-box defenses for multi-turn LLM interactions [125.21418304558948]
大きな言語モデル(LLM)の漏洩は、セキュリティとプライバシの重大な脅威を引き起こす。
マルチターンLDM相互作用の漏洩と緩和戦略は、標準化された方法では研究されていない。
本稿では,4つの異なるドメインと10のクローズドおよびオープンソース LLM にまたがる急激なリークに対するLSM 脆弱性について検討する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Uncovering Safety Risks in Open-source LLMs through Concept Activation Vector [62.23945242640024]
本稿では,概念に基づくモデル記述を用いたLLM攻撃手法を提案する。
安全概念アクティベーションベクトル(SCAV)をLLMのアクティベーション空間から抽出し、適切に整列されたLCMに対する効率的な攻撃を可能にする。
このことは、LLMが徹底的な安全調整をした後でも、社会に公開時に潜在的リスクを及ぼす可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
MLLMの安全性を意識した新しいトレーニング不要保護手法ECSO(Eyes Closed, Safety On, Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、あらかじめ整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - AVIBench: Towards Evaluating the Robustness of Large Vision-Language Model on Adversarial Visual-Instructions [52.9787902653558]
LVLM(Large Vision-Language Models)は、視覚的インストラクションに対するユーザからの対応において、大きな進歩を見せている。
LVLMのこのような脅威に対する堅牢性の重要性にもかかわらず、この分野の現在の研究は限られている。
AVIBenchは、様々な対向的な視覚的命令に直面した場合のLVLMの堅牢性を分析するために設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T12:51:07Z) - Security Code Review by LLMs: A Deep Dive into Responses [9.776589174988043]
セキュリティコードレビューは、自動ツールと開発中のセキュリティ欠陥を検出する手作業を組み合わせることを目的としている。
本研究では,実世界のコードレビューのセキュリティ欠陥を含む549個のコードファイルに対して,最先端のLLM3つの検出性能を5つのプロンプトで比較した。
以上の結果から, LLMの応答は冗長性, 曖昧性, 不完全性に悩まされることが多く, その簡潔さ, 理解可能性, セキュリティ欠陥検出の遵守の必要性が浮き彫りにされている。
論文 参考訳(メタデータ) (2024-01-29T17:13:44Z) - MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance [31.043844145980675]
MLLM(Multimodal large language model)は、視覚入力による悪意のある攻撃を受けやすい言語である。
MLLM-Protectorは,軽量な高調波検出器と応答デトキシファイタを組み合わせたプラグアンドプレイ方式である。
このアプローチは、モデル全体のパフォーマンスを損なうことなく、悪意のある視覚入力によって引き起こされるリスクを効果的に軽減する。
論文 参考訳(メタデータ) (2024-01-05T17:05:42Z) - MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large
Language Models [44.1948821279342]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。
画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。
我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-29T12:49:45Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。