論文の概要: Voice Jailbreak Attacks Against GPT-4o
- arxiv url: http://arxiv.org/abs/2405.19103v1
- Date: Wed, 29 May 2024 14:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 17:00:54.868097
- Title: Voice Jailbreak Attacks Against GPT-4o
- Title(参考訳): GPT-4oに対するボイスジェイルブレイク攻撃
- Authors: Xinyue Shen, Yixin Wu, Michael Backes, Yang Zhang,
- Abstract要約: GPT-4oの音声モードに対するジェイルブレイク攻撃を初めて系統的に測定した。
本稿では,GPT-4oを人間化した新しいボイスジェイルブレイク攻撃であるVoiceJailbreakを提案する。
- 参考スコア(独自算出の注目度): 27.505874745648498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the concept of artificial assistants has evolved from science fiction into real-world applications. GPT-4o, the newest multimodal large language model (MLLM) across audio, vision, and text, has further blurred the line between fiction and reality by enabling more natural human-computer interactions. However, the advent of GPT-4o's voice mode may also introduce a new attack surface. In this paper, we present the first systematic measurement of jailbreak attacks against the voice mode of GPT-4o. We show that GPT-4o demonstrates good resistance to forbidden questions and text jailbreak prompts when directly transferring them to voice mode. This resistance is primarily due to GPT-4o's internal safeguards and the difficulty of adapting text jailbreak prompts to voice mode. Inspired by GPT-4o's human-like behaviors, we propose VoiceJailbreak, a novel voice jailbreak attack that humanizes GPT-4o and attempts to persuade it through fictional storytelling (setting, character, and plot). VoiceJailbreak is capable of generating simple, audible, yet effective jailbreak prompts, which significantly increases the average attack success rate (ASR) from 0.033 to 0.778 in six forbidden scenarios. We also conduct extensive experiments to explore the impacts of interaction steps, key elements of fictional writing, and different languages on VoiceJailbreak's effectiveness and further enhance the attack performance with advanced fictional writing techniques. We hope our study can assist the research community in building more secure and well-regulated MLLMs.
- Abstract(参考訳): 近年,人工アシスタントの概念はSFから現実の応用へと発展してきた。
GPT-4oは、音声、視覚、テキスト間の最新のマルチモーダル大言語モデル(MLLM)であり、より自然な人間とコンピュータの相互作用を可能にすることで、フィクションと現実の境界をさらに曖昧にした。
しかし、GPT-4oの音声モードの出現は新たな攻撃面をもたらす可能性がある。
本稿では,GPT-4oの音声モードに対するジェイルブレイク攻撃を初めて系統的に測定する。
また, GPT-4oは, 直接音声モードに転送した場合に, 禁止された質問やテキストジェイルブレイクのプロンプトに対して優れた耐性を示すことを示す。
この抵抗は、主にGPT-4oの内部の保護と、テキストジェイルブレイクプロンプトを音声モードに適応させることの難しさによるものである。
GPT-4oの人間的行動にインスパイアされたVoiceJailbreakは、GPT-4oを人間化する新しい音声ジェイルブレイク攻撃であり、架空のストーリーテリング(セット、キャラクタ、プロット)によってそれを説得しようとする試みである。
VoiceJailbreakは、シンプルで聴覚的で効果的なjailbreakプロンプトを生成することができるため、6つの禁止シナリオで平均攻撃成功率(ASR)が0.033から0.778に大幅に向上する。
また,VoiceJailbreakの有効性に対するインタラクションステップ,架空の文章のキー要素,さまざまな言語の影響について広範な実験を行い,高度なフィクションによる攻撃性能の向上を図っている。
我々は,より安全で適切に規制されたMLLMを構築する上で,研究コミュニティを支援することを願っている。
関連論文リスト
- Can Large Language Models Automatically Jailbreak GPT-4V? [64.04997365446468]
本稿では,迅速な最適化にインスパイアされた革新的な自動ジェイルブレイク技術であるAutoJailbreakを紹介する。
実験の結果,AutoJailbreakは従来の手法をはるかに上回り,95.3%を超えるアタック成功率(ASR)を達成した。
この研究は、GPT-4Vのセキュリティ強化に光を当て、LCMがGPT-4Vの完全性向上に活用される可能性を強調している。
論文 参考訳(メタデータ) (2024-07-23T17:50:45Z) - Unveiling the Safety of GPT-4o: An Empirical Study using Jailbreak Attacks [65.84623493488633]
本稿では,GPT-4oのジェイルブレイク攻撃に対する厳密な評価を行う。
新たに導入されたオーディオモダリティは、GPT-4oに対するジェイルブレイク攻撃のための新しい攻撃ベクトルを開く。
既存のブラックボックスマルチモーダル・ジェイルブレイク攻撃は、GPT-4oとGPT-4Vに対してほとんど効果がない。
論文 参考訳(メタデータ) (2024-06-10T14:18:56Z) - Automatic Jailbreaking of the Text-to-Image Generative AI Systems [76.9697122883554]
本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの安全性について,ナイーブプロンプトによる著作権侵害について検討する。
安全ガードをバイパスするプロンプトを生成するT2I生成システムに対して,より強力な自動脱獄パイプラインを提案する。
当社のフレームワークは,ChatGPTを11.0%のブロックレートでジェイルブレイクし,その76%で著作権コンテンツを生成する。
論文 参考訳(メタデータ) (2024-05-26T13:32:24Z) - GPT-4 Jailbreaks Itself with Near-Perfect Success Using Self-Explanation [9.377563769107843]
IRIS(Iterative Refinement induced Self-Jailbreak)は,ブラックボックスアクセスのみのジェイルブレイクに対する新しいアプローチである。
以前の方法とは異なり、IRISは単一のモデルを攻撃者とターゲットの両方として使用することで、ジェイルブレイクプロセスを単純化する。
その結果, GPT-4で98%, GPT-4 Turboで92%のIRISジェイルブレイク成功率は7問未満であった。
論文 参考訳(メタデータ) (2024-05-21T03:16:35Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks [0.0]
本研究では,ジェイルブレイクプロンプトを効率的に作成するための簡単なブラックボックス手法を提案する。
本手法は有害なプロンプトを目的のLSMを直接利用した良性表現に反復的に変換する。
提案手法は, 平均5回の質問に対して, 80%以上の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-01-18T08:36:54Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models [50.22128133926407]
我々は2022年12月から2023年12月までの1,405件の脱獄プロンプトを包括的に分析する。
131のjailbreakコミュニティを特定し,Jailbreakプロンプトの特徴とその主要な攻撃戦略を明らかにする。
また,ChatGPT (GPT-3.5) と GPT-4 の攻撃成功率 0.95 を達成できる5つの有効なジェイルブレイクプロンプトを同定した。
論文 参考訳(メタデータ) (2023-08-07T16:55:20Z) - Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study [22.411634418082368]
大規模言語モデル(LLM)は、大きな可能性を示しているが、コンテンツ制約や潜在的な誤用に関連する課題ももたらしている。
本研究は, 1 つの重要な研究課題について,(1) 脱獄性 LLM を回避できる異なるプロンプトの種類数,(2) 脱獄性 LLM 制約を回避するための脱獄性プロンプトの有効性,(3) 脱獄性プロンプトに対する ChatGPT のレジリエンスについて検討した。
論文 参考訳(メタデータ) (2023-05-23T09:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。