Fugu-MT 論文翻訳(概要): Visual Adversarial Examples Jailbreak Large Language Models

論文の概要: Visual Adversarial Examples Jailbreak Large Language Models

arxiv url: http://arxiv.org/abs/2306.13213v1
Date: Thu, 22 Jun 2023 22:13:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-26 14:04:57.587607
Title: Visual Adversarial Examples Jailbreak Large Language Models
Title（参考訳）: Visual Adversarial Examples Jailbreak Large Language Models
Authors: Xiangyu Qi, Kaixuan Huang, Ashwinee Panda, Mengdi Wang, Prateek Mittal
Abstract要約: 視覚入力空間の連続的・高次元的な性質は、本質的には敵攻撃の場となる。単一の敵の例は一般的にMiniGPT-4の安全性を損なう可能性があり、幅広い有害な命令を処理できる。我々は、包括的リスクアセスメント、堅牢な防衛戦略、責任あるプラクティスの実行に対する緊急の要求を強調します。
参考スコア（独自算出の注目度）: 49.31260848940259
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, there has been a surge of interest in introducing vision into Large Language Models (LLMs). The proliferation of large Visual Language Models (VLMs), such as Flamingo, BLIP-2, and GPT-4, signifies an exciting convergence of advancements in both visual and language foundation models. Yet, the risks associated with this integrative approach are largely unexamined. In this paper, we shed light on the security and safety implications of this trend. First, we underscore that the continuous and high-dimensional nature of the additional visual input space intrinsically makes it a fertile ground for adversarial attacks. This unavoidably expands the attack surfaces of LLMs. Second, we highlight that the broad functionality of LLMs also presents visual attackers with a wider array of achievable adversarial objectives, extending the implications of security failures beyond mere misclassification. To elucidate these risks, we study adversarial examples in the visual input space of a VLM. Specifically, against MiniGPT-4, which incorporates safety mechanisms that can refuse harmful instructions, we present visual adversarial examples that can circumvent the safety mechanisms and provoke harmful behaviors of the model. Remarkably, we discover that adversarial examples, even if optimized on a narrow, manually curated derogatory corpus against specific social groups, can universally jailbreak the model's safety mechanisms. A single such adversarial example can generally undermine MiniGPT-4's safety, enabling it to heed a wide range of harmful instructions and produce harmful content far beyond simply imitating the derogatory corpus used in optimization. Unveiling these risks, we accentuate the urgent need for comprehensive risk assessments, robust defense strategies, and the implementation of responsible practices for the secure and safe utilization of VLMs.
Abstract（参考訳）: 近年、大規模言語モデル(llm)にビジョンを導入することへの関心が高まっている。 Flamingo、BLIP-2、GPT-4のような大規模なビジュアル言語モデル(VLM)の普及は、視覚基盤モデルと言語基盤モデルの両方における進歩のエキサイティングな収束を意味している。しかし、この統合的アプローチに関連するリスクは、ほとんど見当たらない。本稿では,この傾向の安全性と安全性について概説する。まず,視覚入力空間の連続的かつ高次元的性質が,本質的に敵の攻撃の場となることを強調する。これはLLMの攻撃面を必然的に拡大する。第二に、LLMの幅広い機能はまた、達成可能な敵の目的の広い視覚的攻撃者を示し、単なる誤分類以上のセキュリティ障害の影響を拡大する。これらのリスクを解明するために,VLMの視覚入力空間における逆例について検討した。具体的には,有害な指示を拒否する安全機構を組み込んだminigpt-4に対して,安全機構を回避し,モデルの有害な行動を引き起こすような視覚敵例を示す。顕著なことに、特定の社会的グループに対して手作業で調整された排他的コーパスに最適化された敵例が、モデルの安全メカニズムを普遍的にジェイルブレイクすることを発見した。そのような敵対的な一つの例は、一般にMiniGPT-4の安全性を損なう可能性があり、様々な有害な命令を処理し、最適化に使用される推論コーパスを単に模倣する以上の有害なコンテンツを生成できる。これらのリスクを解消し、包括的リスク評価、堅牢な防衛戦略、VLMの安全かつ安全な利用のための責任ある実践の実施に対する緊急の要求を強調する。

関連論文リスト

Seeing the Threat: Vulnerabilities in Vision-Language Models to Adversarial Attack [7.988475248750045]
LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な機能を示す。従来の敵攻撃がLVLMに埋め込まれた安全機構を回避できる理由を明らかにするために,系統的な表現解析を行う。 LVLMに対する敵攻撃のための2段階評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-28T04:43:39Z)
Transferable Adversarial Attacks on Black-Box Vision-Language Models [63.22532779621001]
敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
論文参考訳（メタデータ） (2025-05-02T06:51:11Z)
CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文参考訳（メタデータ） (2025-03-08T17:33:55Z)
Large Language Model Adversarial Landscape Through the Lens of Attack Objectives [13.847214147036226]
大規模言語モデル(LLM)は、人工知能における変革的な飛躍を表している。 LLMは、プライバシー、信頼性、セキュリティ、信頼性を脅かす様々な敵攻撃に対して、ますます脆弱になっている。
論文参考訳（メタデータ） (2025-02-05T07:54:07Z)
Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks [34.40254709148148]
事前学習された視覚言語モデル(VLM)は、画像および自然言語理解において顕著な性能を示した。彼らの潜在的な安全性と堅牢性の問題は、敵がシステムを回避し、悪意のある攻撃を通じて有害なコンテンツを生成することを懸念する。本稿では,マルチモーダルなセマンティック・アップデートに基づいて,敵対的事例の生成を反復的に促進するアタック・チェーン(CoA)を提案する。
論文参考訳（メタデータ） (2024-11-24T05:28:07Z)
A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。 LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文参考訳（メタデータ） (2024-07-10T06:57:58Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文参考訳（メタデータ） (2024-05-28T07:13:30Z)
Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors [31.383591942592467]
視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
論文参考訳（メタデータ） (2024-05-17T04:19:19Z)
Adversarial Robustness for Visual Grounding of Multimodal Large Language Models [49.71757071535619]
MLLM(Multi-modal Large Language Models)は近年,様々な視覚言語タスクのパフォーマンス向上を実現している。 MLLMでは、視覚的グラウンドリングの対角的堅牢性は未発見のままである。本稿では,次の3つの攻撃パラダイムを提案する。
論文参考訳（メタデータ） (2024-05-16T10:54:26Z)
Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文参考訳（メタデータ） (2023-10-16T21:37:24Z)
On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文参考訳（メタデータ） (2023-05-26T13:49:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。