論文の概要: ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs
- arxiv url: http://arxiv.org/abs/2402.11753v2
- Date: Thu, 22 Feb 2024 18:40:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 11:52:31.898841
- Title: ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs
- Title(参考訳): ArtPrompt: ASCIIアートベースのジェイルブレイク攻撃
- Authors: Fengqing Jiang, Zhangchen Xu, Luyao Niu, Zhen Xiang, Bhaskar
Ramasubramanian, Bo Li, Radha Poovendran
- Abstract要約: ASCIIアートベースの新しいジェイルブレイク攻撃を提案し、ViTC(Vision-in-Text Challenge)ベンチマークを導入する。
5つのSOTA LLM (GPT-3.5, GPT-4, Gemini, Claude, Llama2) がASCIIアートの形で提供されるプロンプトを認識するのに苦労していることを示す。
我々は, ASCII アート認識における LLM の性能の低下を利用して, 安全対策を回避し, 望ましくない行動を誘発する, 脱獄攻撃ArtPrompt を開発した。
- 参考スコア(独自算出の注目度): 13.661259390302508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety is critical to the usage of large language models (LLMs). Multiple
techniques such as data filtering and supervised fine-tuning have been
developed to strengthen LLM safety. However, currently known techniques presume
that corpora used for safety alignment of LLMs are solely interpreted by
semantics. This assumption, however, does not hold in real-world applications,
which leads to severe vulnerabilities in LLMs. For example, users of forums
often use ASCII art, a form of text-based art, to convey image information. In
this paper, we propose a novel ASCII art-based jailbreak attack and introduce a
comprehensive benchmark Vision-in-Text Challenge (ViTC) to evaluate the
capabilities of LLMs in recognizing prompts that cannot be solely interpreted
by semantics. We show that five SOTA LLMs (GPT-3.5, GPT-4, Gemini, Claude, and
Llama2) struggle to recognize prompts provided in the form of ASCII art. Based
on this observation, we develop the jailbreak attack ArtPrompt, which leverages
the poor performance of LLMs in recognizing ASCII art to bypass safety measures
and elicit undesired behaviors from LLMs. ArtPrompt only requires black-box
access to the victim LLMs, making it a practical attack. We evaluate ArtPrompt
on five SOTA LLMs, and show that ArtPrompt can effectively and efficiently
induce undesired behaviors from all five LLMs.
- Abstract(参考訳): 安全性は、大きな言語モデル(LLM)の使用に不可欠である。
LLMの安全性を高めるために、データフィルタリングや教師付き微調整などの複数の技術が開発されている。
しかし、現在知られている手法では、LLMの安全アライメントに使用されるコーパスは意味論的にのみ解釈される。
しかし、この仮定は現実世界のアプリケーションには当てはまらないため、LLMの深刻な脆弱性につながる。
例えば、フォーラムのユーザは、しばしば画像情報を伝えるためにテキストベースのアートであるASCIIアートを使用する。
本稿では, ASCIIアートベースの新しいジェイルブレイク攻撃を提案し, セマンティクスでのみ解釈できないプロンプトを認識する上で, LLMの能力を評価するための総合的ベンチマークViTCを提案する。
5つのSOTA LLM (GPT-3.5, GPT-4, Gemini, Claude, Llama2) がASCIIアートの形で提供されるプロンプトを認識するのに苦労していることを示す。
本研究は, ASCII アート認識における LLM の貧弱な性能を活用し, 安全対策を回避し, かつ LLM から望ましくない行動を誘発する, 脱獄攻撃ArtPrompt を開発した。
ArtPromptは被害者のLSMへのブラックボックスアクセスしか必要とせず、実用的な攻撃である。
我々は5つのSOTA LLM上でArtPromptを評価し、ArtPromptが5つのLLMすべてから望ましくない振る舞いを効果的かつ効率的に誘導できることを示した。
関連論文リスト
- FlipAttack: Jailbreak LLMs via Flipping [63.871087708946476]
本稿では,ブラックボックスLSMに対するFlipAttackという単純なジェイルブレイク攻撃を提案する。
LLMは、左から右へテキストを理解する傾向があり、ノイズが左に付加されたときにテキストを理解するのに苦労している。
これらの知見に感化されて、我々はプロンプト自体に基づいて左側のノイズを合成し、これを4つのフリップモードに一般化することで有害なプロンプトを偽装することを提案する。
論文 参考訳(メタデータ) (2024-10-02T08:41:23Z) - ObscurePrompt: Jailbreaking Large Language Models via Obscure Input [32.00508793605316]
本稿では,LLMをジェイルブレイクするための単純で斬新な手法であるObscurePromptを紹介する。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。
ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。
中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文 参考訳(メタデータ) (2024-06-09T05:04:37Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding [35.750885132167504]
我々は,大規模言語モデル(LLM)の安全性を意識したデコーディング戦略であるSafeDecodingを導入し,ユーザクエリに対する有用かつ無害な応答を生成する。
この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2024-02-14T06:54:31Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked [19.242818141154086]
大規模言語モデル(LLM)は高品質なテキスト生成に人気がある。
LLMは人的価値に合わせても有害なコンテンツを生成できる。
我々は、これらの攻撃を防御するための簡単なアプローチであるLSM Self Defenseを提案する。
論文 参考訳(メタデータ) (2023-08-14T17:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。