論文の概要: `Do as I say not as I do': A Semi-Automated Approach for Jailbreak Prompt Attack against Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2502.00735v2
- Date: Thu, 13 Feb 2025 20:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 18:06:04.126671
- Title: `Do as I say not as I do': A Semi-Automated Approach for Jailbreak Prompt Attack against Multimodal LLMs
- Title(参考訳): 「私の言うとおりにせよ」:マルチモーダルLDMに対するジェイルブレイク・プロンプト攻撃の半自動的アプローチ
- Authors: Chun Wai Chiu, Linghan Huang, Bo Li, Huaming Chen,
- Abstract要約: マルチモーダル大言語モデル(LLM)に対する最初の音声ベースのジェイルブレイク攻撃を導入する。
本稿では,不許可なプロンプトを,良心的かつ物語駆動的なプロンプトによって側面に配置する,新たな戦略を提案する。
我々は、Flanking Attackは最先端のLLMを操作でき、不整合および禁止された出力を生成することを実証する。
- 参考スコア(独自算出の注目度): 6.151779089440453
- License:
- Abstract: Large Language Models (LLMs) have seen widespread applications across various domains due to their growing ability to process diverse types of input data, including text, audio, image and video. While LLMs have demonstrated outstanding performance in understanding and generating contexts for different scenarios, they are vulnerable to prompt-based attacks, which are mostly via text input. In this paper, we introduce the first voice-based jailbreak attack against multimodal LLMs, termed as Flanking Attack, which can process different types of input simultaneously towards the multimodal LLMs. Our work is motivated by recent advancements in monolingual voice-driven large language models, which have introduced new attack surfaces beyond traditional text-based vulnerabilities for LLMs. To investigate these risks, we examine the state-of-the-art multimodal LLMs, which can be accessed via different types of inputs such as audio input, focusing on how adversarial prompts can bypass its defense mechanisms. We propose a novel strategy, in which the disallowed prompt is flanked by benign, narrative-driven prompts. It is integrated in the Flanking Attack which attempts to humanizes the interaction context and execute the attack through a fictional setting. Further, to better evaluate the attack performance, we present a semi-automated self-assessment framework for policy violation detection. We demonstrate that Flanking Attack is capable of manipulating state-of-the-art LLMs into generating misaligned and forbidden outputs, which achieves an average attack success rate ranging from 0.67 to 0.93 across seven forbidden scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト、オーディオ、画像、ビデオなど、さまざまな種類の入力データを処理する能力の増大により、様々な領域に広く応用されている。
LLMは様々なシナリオのコンテキストの理解と生成において優れた性能を示してきたが、主にテキスト入力によるプロンプトベースの攻撃には弱い。
本稿では,マルチモーダル LLM に対して,マルチモーダル LLM に対して異なる入力を同時に処理できる Flanking Attack と呼ばれる最初の音声ベースのジェイルブレイク攻撃を導入する。
我々の研究は、LLMの従来のテキストベースの脆弱性を超えて、新たな攻撃面を導入したモノリンガル音声駆動型大規模言語モデルの最近の進歩に動機づけられている。
これらのリスクを調査するために,音声入力などの様々な入力を介してアクセス可能な,最先端のマルチモーダルLCMについて検討し,その防御機構を克服する方法に着目した。
本稿では,不許可なプロンプトを,良心的かつ物語駆動的なプロンプトによって側面に配置する,新たな戦略を提案する。
これは、インタラクションコンテキストを人間化し、架空の設定で攻撃を実行しようとするFlanking Attackに組み込まれている。
さらに、攻撃性能をよりよく評価するために、政策違反検出のための半自動自己評価フレームワークを提案する。
本研究では,Flanking Attackが最先端のLCMを操作して不正な出力を発生させることで,7つの禁制シナリオで平均0.67~0.93の攻撃成功率が得られることを示す。
関連論文リスト
- Universal Adversarial Attack on Aligned Multimodal LLMs [1.5146068448101746]
マルチモーダル大規模言語モデル(LLM)に対する普遍的敵攻撃を提案する。
私たちは、ターゲットとするフレーズや、その他の安全でないコンテンツでモデルに応答するよう強制する合成画像を作成します。
コードとデータセットはApache-2.0ライセンスでリリースします。
論文 参考訳(メタデータ) (2025-02-11T22:07:47Z) - Seeing is Deceiving: Exploitation of Visual Pathways in Multi-Modal Language Models [0.0]
MLLM(Multi-Modal Language Models)は、視覚データとテキストデータを組み合わせた人工知能である。
攻撃者は視覚的またはテキスト的な入力を操作するか、あるいは両方を操作して、意図しないあるいは有害な応答をモデルに生成させる。
本稿では,MLLMの視覚的入力が様々な攻撃戦略によってどのように活用できるかを概説する。
論文 参考訳(メタデータ) (2024-11-07T16:21:18Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM [27.046944831084776]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を発揮している。
CoAは、アタックポリシーを適応的に調整する意味駆動型コンテキスト型マルチターンアタック手法である。
我々は、CoAがLLMの脆弱性を効果的に暴露し、既存の攻撃方法より優れていることを示す。
論文 参考訳(メタデータ) (2024-05-09T08:15:21Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。