論文の概要: Visual Adversarial Examples Jailbreak Aligned Large Language Models
- arxiv url: http://arxiv.org/abs/2306.13213v2
- Date: Wed, 16 Aug 2023 22:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 23:16:04.000275
- Title: Visual Adversarial Examples Jailbreak Aligned Large Language Models
- Title(参考訳): 大規模言語モデルによるジェイルブレイクの視覚的例
- Authors: Xiangyu Qi, Kaixuan Huang, Ashwinee Panda, Peter Henderson, Mengdi
Wang, Prateek Mittal
- Abstract要約: 視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
- 参考スコア(独自算出の注目度): 66.53468356460365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been a surge of interest in integrating vision into Large
Language Models (LLMs), exemplified by Visual Language Models (VLMs) such as
Flamingo and GPT-4. This paper sheds light on the security and safety
implications of this trend. First, we underscore that the continuous and
high-dimensional nature of the visual input makes it a weak link against
adversarial attacks, representing an expanded attack surface of
vision-integrated LLMs. Second, we highlight that the versatility of LLMs also
presents visual attackers with a wider array of achievable adversarial
objectives, extending the implications of security failures beyond mere
misclassification. As an illustration, we present a case study in which we
exploit visual adversarial examples to circumvent the safety guardrail of
aligned LLMs with integrated vision. Intriguingly, we discover that a single
visual adversarial example can universally jailbreak an aligned LLM, compelling
it to heed a wide range of harmful instructions that it otherwise would not)
and generate harmful content that transcends the narrow scope of a `few-shot'
derogatory corpus initially employed to optimize the adversarial example. Our
study underscores the escalating adversarial risks associated with the pursuit
of multimodality. Our findings also connect the long-studied adversarial
vulnerabilities of neural networks to the nascent field of AI alignment. The
presented attack suggests a fundamental adversarial challenge for AI alignment,
especially in light of the emerging trend toward multimodality in frontier
foundation models.
- Abstract(参考訳): 近年,Flamingo や GPT-4 といった Visual Language Models (VLM) が示すような,Large Language Models (LLM) へのビジョン統合への関心が高まっている。
本稿では,この傾向の安全性と安全性について概説する。
まず、視覚入力の連続的かつ高次元的な性質が、視覚統合LDMの攻撃面の拡大を表す敵対的攻撃に対して弱いリンクとなることを強調する。
第2に、LLMの汎用性は、達成可能な敵の目的の範囲が広い視覚的攻撃者を示し、単なる誤分類以上のセキュリティ障害の影響を拡大する。
そこで,本研究では,協調型llmの安全ガードレールを回避し,視覚障害者の事例を活用したケーススタディを提案する。
興味深いことに、単一の視覚的敵意の例は、一貫したLDMを普遍的にジェイルブレイクし、それ以外はそうでないような有害な命令を広範囲に受け取り、敵意の例を最適化するために最初に採用された「フェーショット」軽蔑コーパスの狭い範囲を超越する有害なコンテンツを生成することができる。
本研究は,マルチモダリティの追求に伴う敵対的リスクの増大を強調する。
我々の研究結果は、ニューラルネットワークの長年研究されてきた敵の脆弱性を、AIアライメントの初期段階に結び付けている。
提示された攻撃は、特にフロンティア基盤モデルにおけるマルチモダリティへの新たなトレンドに照らして、AIアライメントに対する根本的な敵対的課題を示唆している。
関連論文リスト
- A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors [31.383591942592467]
視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。
パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。
本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
論文 参考訳(メタデータ) (2024-05-17T04:19:19Z) - Adversarial Robustness for Visual Grounding of Multimodal Large Language Models [49.71757071535619]
MLLM(Multi-modal Large Language Models)は近年,様々な視覚言語タスクのパフォーマンス向上を実現している。
MLLMでは、視覚的グラウンドリングの対角的堅牢性は未発見のままである。
本稿では,次の3つの攻撃パラダイムを提案する。
論文 参考訳(メタデータ) (2024-05-16T10:54:26Z) - Survey of Vulnerabilities in Large Language Models Revealed by
Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。
複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。
本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文 参考訳(メタデータ) (2023-10-16T21:37:24Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。