論文の概要: ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs
- arxiv url: http://arxiv.org/abs/2402.11753v1
- Date: Mon, 19 Feb 2024 00:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 19:09:43.080830
- Title: ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs
- Title(参考訳): ArtPrompt: ASCIIアートベースのジェイルブレイク攻撃
- Authors: Fengqing Jiang, Zhangchen Xu, Luyao Niu, Zhen Xiang, Bhaskar
Ramasubramanian, Bo Li, Radha Poovendran
- Abstract要約: ASCIIアートベースの新しいジェイルブレイク攻撃を提案し、ViTC(Vision-in-Text Challenge)ベンチマークを導入する。
5つのSOTA LLM (GPT-3.5, GPT-4, Gemini, Claude, Llama2) がASCIIアートの形で提供されるプロンプトを認識するのに苦労していることを示す。
我々は, ASCII アート認識における LLM の性能の低下を利用して, 安全対策を回避し, 望ましくない行動を誘発する, 脱獄攻撃ArtPrompt を開発した。
- 参考スコア(独自算出の注目度): 13.661259390302508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety is critical to the usage of large language models (LLMs). Multiple
techniques such as data filtering and supervised fine-tuning have been
developed to strengthen LLM safety. However, currently known techniques presume
that corpora used for safety alignment of LLMs are solely interpreted by
semantics. This assumption, however, does not hold in real-world applications,
which leads to severe vulnerabilities in LLMs. For example, users of forums
often use ASCII art, a form of text-based art, to convey image information. In
this paper, we propose a novel ASCII art-based jailbreak attack and introduce a
comprehensive benchmark Vision-in-Text Challenge (ViTC) to evaluate the
capabilities of LLMs in recognizing prompts that cannot be solely interpreted
by semantics. We show that five SOTA LLMs (GPT-3.5, GPT-4, Gemini, Claude, and
Llama2) struggle to recognize prompts provided in the form of ASCII art. Based
on this observation, we develop the jailbreak attack ArtPrompt, which leverages
the poor performance of LLMs in recognizing ASCII art to bypass safety measures
and elicit undesired behaviors from LLMs. ArtPrompt only requires black-box
access to the victim LLMs, making it a practical attack. We evaluate ArtPrompt
on five SOTA LLMs, and show that ArtPrompt can effectively and efficiently
induce undesired behaviors from all five LLMs.
- Abstract(参考訳): 安全性は、大きな言語モデル(LLM)の使用に不可欠である。
LLMの安全性を高めるために、データフィルタリングや教師付き微調整などの複数の技術が開発されている。
しかし、現在知られている手法では、LLMの安全アライメントに使用されるコーパスは意味論的にのみ解釈される。
しかし、この仮定は現実世界のアプリケーションには当てはまらないため、LLMの深刻な脆弱性につながる。
例えば、フォーラムのユーザは、しばしば画像情報を伝えるためにテキストベースのアートであるASCIIアートを使用する。
本稿では, ASCIIアートベースの新しいジェイルブレイク攻撃を提案し, セマンティクスでのみ解釈できないプロンプトを認識する上で, LLMの能力を評価するための総合的ベンチマークViTCを提案する。
5つのSOTA LLM (GPT-3.5, GPT-4, Gemini, Claude, Llama2) がASCIIアートの形で提供されるプロンプトを認識するのに苦労していることを示す。
本研究は, ASCII アート認識における LLM の貧弱な性能を活用し, 安全対策を回避し, かつ LLM から望ましくない行動を誘発する, 脱獄攻撃ArtPrompt を開発した。
ArtPromptは被害者のLSMへのブラックボックスアクセスしか必要とせず、実用的な攻撃である。
我々は5つのSOTA LLM上でArtPromptを評価し、ArtPromptが5つのLLMすべてから望ましくない振る舞いを効果的かつ効率的に誘導できることを示した。
関連論文リスト
- AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM
Jailbreakers [80.18953043605696]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。
DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文 参考訳(メタデータ) (2024-02-25T17:43:29Z) - From Noise to Clarity: Unraveling the Adversarial Suffix of Large
Language Model Attacks via Translation of Text Embeddings [64.26248561154509]
近年の研究では、有害な指示に接尾辞を付けることで、LSMの防御をハックできることが判明している。
本稿では,非可読な逆接尾辞をコヒーレントかつ可読なテキストに翻訳可能な逆接尾辞埋め込み翻訳フレームワーク(ASETF)を提案する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware
Decoding [37.88220351224544]
我々は,大規模言語モデル(LLM)の安全性を意識したデコーディング戦略であるSafeDecodingを導入し,ユーザクエリに対する有用かつ無害な応答を生成する。
この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2024-02-14T06:54:31Z) - DeceptPrompt: Exploiting LLM-driven Code Generation via Adversarial
Natural Language Instructions [27.489622263456983]
DeceptPromptは、コードLLMを駆動し、脆弱性のある機能の正しいコードを生成する、逆の自然言語命令を生成するアルゴリズムである。
最適化プレフィックス/サフィックスを適用する場合、アタック成功率(ASR)はプレフィックス/サフィックスを適用せずに平均50%向上する。
論文 参考訳(メタデータ) (2023-12-07T22:19:06Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [102.17459476527233]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
これらの脆弱性を特定するために,PAIR(Prompt Automatic Iterative Refinement)を提案する。
PAIRは、LCMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked [19.242818141154086]
大規模言語モデル(LLM)は高品質なテキスト生成に人気がある。
LLMは人的価値に合わせても有害なコンテンツを生成できる。
我々は、これらの攻撃を防御するための簡単なアプローチであるLSM Self Defenseを提案する。
論文 参考訳(メタデータ) (2023-08-14T17:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。