Fugu-MT 論文翻訳(概要): FlipAttack: Jailbreak LLMs via Flipping

論文の概要: FlipAttack: Jailbreak LLMs via Flipping

arxiv url: http://arxiv.org/abs/2410.02832v1
Date: Wed, 2 Oct 2024 08:41:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-03 05:24:53.686469
Title: FlipAttack: Jailbreak LLMs via Flipping
Title（参考訳）: FlipAttack:Jailbreak LLMs via Flipping
Authors: Yue Liu, Xiaoxin He, Miao Xiong, Jinlan Fu, Shumin Deng, Bryan Hooi,
Abstract要約: 本稿では,ブラックボックスLSMに対するFlipAttackという単純なジェイルブレイク攻撃を提案する。 LLMは、左から右へテキストを理解する傾向があり、ノイズが左に付加されたときにテキストを理解するのに苦労している。これらの知見に感化されて、我々はプロンプト自体に基づいて左側のノイズを合成し、これを4つのフリップモードに一般化することで有害なプロンプトを偽装することを提案する。
参考スコア（独自算出の注目度）: 63.871087708946476
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes a simple yet effective jailbreak attack named FlipAttack against black-box LLMs. First, from the autoregressive nature, we reveal that LLMs tend to understand the text from left to right and find that they struggle to comprehend the text when noise is added to the left side. Motivated by these insights, we propose to disguise the harmful prompt by constructing left-side noise merely based on the prompt itself, then generalize this idea to 4 flipping modes. Second, we verify the strong ability of LLMs to perform the text-flipping task, and then develop 4 variants to guide LLMs to denoise, understand, and execute harmful behaviors accurately. These designs keep FlipAttack universal, stealthy, and simple, allowing it to jailbreak black-box LLMs within only 1 query. Experiments on 8 LLMs demonstrate the superiority of FlipAttack. Remarkably, it achieves $\sim$98\% attack success rate on GPT-4o, and $\sim$98\% bypass rate against 5 guardrail models on average. The codes are available at GitHub\footnote{https://github.com/yueliu1999/FlipAttack}.
Abstract（参考訳）: 本稿では,ブラックボックスLSMに対するFlipAttackという単純なジェイルブレイク攻撃を提案する。まず、自己回帰的な性質から、LLMは左から右へテキストを理解する傾向にあり、ノイズが左に付加されたときにテキストを理解するのに苦労していることが明らかになった。これらの知見に感化されて、我々はプロンプト自体に基づいて左側のノイズを合成し、これを4つのフリップモードに一般化することで有害なプロンプトを偽装することを提案する。第2に,LLMがテキストフリッピングタスクを行う上での強い能力を検証するとともに,LLMを識別し,理解し,かつ有害な振る舞いを正確に実行するための4つの変種を開発する。これらの設計はFlipAttackを普遍的でステルス的でシンプルに保ち、単一のクエリでブラックボックスのLSMをジェイルブレイクすることができる。 8LLM実験はFlipAttackの優位性を実証した。 GPT-4oでの攻撃成功率は$\sim$98\%、平均5つのガードレールモデルに対する$\sim$98\%バイパスレートは$\sim$98\%である。コードはGitHub\footnote{https://github.com/yueliu 1999/FlipAttack}で公開されている。

関連論文リスト

PUZZLED: Jailbreaking LLMs through Word-Based Puzzles [1.8538788075154355]
本稿では,大規模言語モデルの推論機能を活用した新しいジェイルブレイク手法PUZLEDを紹介する。我々は,LLMを認知的に要求する3種類のパズル型検索,アナグラム,クロスワードを設計する。攻撃成功率は88.8%、特にGPT-4.1では96.5%、Claude 3.7 Sonnetでは92.3%である。
論文参考訳（メタデータ） (2025-08-02T10:36:01Z)
Dagger Behind Smile: Fool LLMs with a Happy Ending Story [3.474162324046381]
Happy Ending Attack (HEA)は、主に$textithappy end$を通じて形成された肯定的なプロンプトを含むシナリオテンプレートで悪意のあるリクエストをラップする。我々のHEAは、GPT-4o、Llama3-70b、Gemini-proを含む最先端のLLMのジェイルブレイクに成功し、平均して88.79%の攻撃成功率を達成した。
論文参考訳（メタデータ） (2025-01-19T13:39:51Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文参考訳（メタデータ） (2024-10-15T06:31:04Z)
Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Neural Carrier Articles [10.109063166962079]
本稿では,言語モデルモデル(LLM)の注意を移す新しいタイプのジェイルブレイク攻撃を提案する。提案攻撃では,知識グラフとLLMを利用して,禁止クエリのトピックに類似したキャリア記事を自動的に生成する。実験の結果,提案手法はクロード3を除いて,高い成功率の目標LLMを投獄できることがわかった。
論文参考訳（メタデータ） (2024-08-20T20:35:04Z)
Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文参考訳（メタデータ） (2024-06-19T16:09:58Z)
Defending LLMs against Jailbreaking Attacks via Backtranslation [61.878363293735624]
「我々は、バックトランスレーションによる脱獄攻撃からLLMを守る新しい方法を提案する。」推測されたプロンプトは、元のプロンプトの実際の意図を明らかにする傾向にある、逆転プロンプトと呼ばれる。我々は、我々の防衛がベースラインを大幅に上回っていることを実証的に実証した。
論文参考訳（メタデータ） (2024-02-26T10:03:33Z)
PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。 PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。 GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文参考訳（メタデータ） (2024-02-15T02:54:49Z)
Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit Clues [16.97760778679782]
本稿では, LLM の防御戦略を回避し, 悪意のある応答を得る, 間接的ジェイルブレイク攻撃手法である Puzzler を提案する。実験の結果,Puzzler はクローズドソース LLM 上で96.6% のクエリ成功率を達成した。最先端のjailbreak検出アプローチに対してテストすると、Puzzlerはベースラインよりも検出を回避するのに効果的であることを証明している。
論文参考訳（メタデータ） (2024-02-14T11:11:51Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked [19.242818141154086]
大規模言語モデル(LLM)は高品質なテキスト生成に人気がある。 LLMは人的価値に合わせても有害なコンテンツを生成できる。我々は、これらの攻撃を防御するための簡単なアプローチであるLSM Self Defenseを提案する。
論文参考訳（メタデータ） (2023-08-14T17:54:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。