Fugu-MT 論文翻訳(概要): Visual Adversarial Examples Jailbreak Aligned Large Language Models

論文の概要: Visual Adversarial Examples Jailbreak Aligned Large Language Models

arxiv url: http://arxiv.org/abs/2306.13213v2
Date: Wed, 16 Aug 2023 22:38:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 23:16:04.000275
Title: Visual Adversarial Examples Jailbreak Aligned Large Language Models
Title（参考訳）: 大規模言語モデルによるジェイルブレイクの視覚的例
Authors: Xiangyu Qi, Kaixuan Huang, Ashwinee Panda, Peter Henderson, Mengdi Wang, Prateek Mittal
Abstract要約: 視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
参考スコア（独自算出の注目度）: 66.53468356460365
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, there has been a surge of interest in integrating vision into Large Language Models (LLMs), exemplified by Visual Language Models (VLMs) such as Flamingo and GPT-4. This paper sheds light on the security and safety implications of this trend. First, we underscore that the continuous and high-dimensional nature of the visual input makes it a weak link against adversarial attacks, representing an expanded attack surface of vision-integrated LLMs. Second, we highlight that the versatility of LLMs also presents visual attackers with a wider array of achievable adversarial objectives, extending the implications of security failures beyond mere misclassification. As an illustration, we present a case study in which we exploit visual adversarial examples to circumvent the safety guardrail of aligned LLMs with integrated vision. Intriguingly, we discover that a single visual adversarial example can universally jailbreak an aligned LLM, compelling it to heed a wide range of harmful instructions that it otherwise would not) and generate harmful content that transcends the narrow scope of a `few-shot' derogatory corpus initially employed to optimize the adversarial example. Our study underscores the escalating adversarial risks associated with the pursuit of multimodality. Our findings also connect the long-studied adversarial vulnerabilities of neural networks to the nascent field of AI alignment. The presented attack suggests a fundamental adversarial challenge for AI alignment, especially in light of the emerging trend toward multimodality in frontier foundation models.
Abstract（参考訳）: 近年,Flamingo や GPT-4 といった Visual Language Models (VLM) が示すような,Large Language Models (LLM) へのビジョン統合への関心が高まっている。本稿では,この傾向の安全性と安全性について概説する。まず、視覚入力の連続的かつ高次元的な性質が、視覚統合LDMの攻撃面の拡大を表す敵対的攻撃に対して弱いリンクとなることを強調する。第2に、LLMの汎用性は、達成可能な敵の目的の範囲が広い視覚的攻撃者を示し、単なる誤分類以上のセキュリティ障害の影響を拡大する。そこで,本研究では,協調型llmの安全ガードレールを回避し,視覚障害者の事例を活用したケーススタディを提案する。興味深いことに、単一の視覚的敵意の例は、一貫したLDMを普遍的にジェイルブレイクし、それ以外はそうでないような有害な命令を広範囲に受け取り、敵意の例を最適化するために最初に採用された「フェーショット」軽蔑コーパスの狭い範囲を超越する有害なコンテンツを生成することができる。本研究は,マルチモダリティの追求に伴う敵対的リスクの増大を強調する。我々の研究結果は、ニューラルネットワークの長年研究されてきた敵の脆弱性を、AIアライメントの初期段階に結び付けている。提示された攻撃は、特にフロンティア基盤モデルにおけるマルチモダリティへの新たなトレンドに照らして、AIアライメントに対する根本的な敵対的課題を示唆している。

関連論文リスト

CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文参考訳（メタデータ） (2025-03-08T17:33:55Z)
Large Language Model Adversarial Landscape Through the Lens of Attack Objectives [13.847214147036226]
大規模言語モデル(LLM)は、人工知能における変革的な飛躍を表している。 LLMは、プライバシー、信頼性、セキュリティ、信頼性を脅かす様々な敵攻撃に対して、ますます脆弱になっている。
論文参考訳（メタデータ） (2025-02-05T07:54:07Z)
Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks [34.40254709148148]
事前学習された視覚言語モデル(VLM)は、画像および自然言語理解において顕著な性能を示した。彼らの潜在的な安全性と堅牢性の問題は、敵がシステムを回避し、悪意のある攻撃を通じて有害なコンテンツを生成することを懸念する。本稿では,マルチモーダルなセマンティック・アップデートに基づいて,敵対的事例の生成を反復的に促進するアタック・チェーン(CoA)を提案する。
論文参考訳（メタデータ） (2024-11-24T05:28:07Z)
A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。 LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文参考訳（メタデータ） (2024-07-10T06:57:58Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文参考訳（メタデータ） (2024-05-28T07:13:30Z)
Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors [31.383591942592467]
視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
論文参考訳（メタデータ） (2024-05-17T04:19:19Z)
Adversarial Robustness for Visual Grounding of Multimodal Large Language Models [49.71757071535619]
MLLM(Multi-modal Large Language Models)は近年,様々な視覚言語タスクのパフォーマンス向上を実現している。 MLLMでは、視覚的グラウンドリングの対角的堅牢性は未発見のままである。本稿では,次の3つの攻撃パラダイムを提案する。
論文参考訳（メタデータ） (2024-05-16T10:54:26Z)
Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文参考訳（メタデータ） (2023-10-16T21:37:24Z)
On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文参考訳（メタデータ） (2023-05-26T13:49:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。