Fugu-MT 論文翻訳(概要): Self-Instruct Few-Shot Jailbreaking: Decompose the Attack into Pattern and Behavior Learning

論文の概要: Self-Instruct Few-Shot Jailbreaking: Decompose the Attack into Pattern and Behavior Learning

arxiv url: http://arxiv.org/abs/2501.07959v1
Date: Tue, 14 Jan 2025 09:23:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-15 17:02:04.427453
Title: Self-Instruct Few-Shot Jailbreaking: Decompose the Attack into Pattern and Behavior Learning
Title（参考訳）: 自己指導型Few-Shot Jailbreaking: 攻撃をパターンと行動学習に分解する
Authors: Jiaqi Hua, Wanxu Wei,
Abstract要約: デモレベルの欲求探索を容易にするセルフインストラクトファウショットジェイルブレイク(Self-Instruct-FSJ)を提案する。このフレームワークはFSJ攻撃をパターンと行動学習に分解し、より一般化された効率的な方法でモデルの脆弱性を利用する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, several works have been conducted on jailbreaking Large Language Models (LLMs) with few-shot malicious demos. In particular, Zheng et al. (2024) focuses on improving the efficiency of Few-Shot Jailbreaking (FSJ) by injecting special tokens into the demos and employing demo-level random search. Nevertheless, this method lacks generality since it specifies the instruction-response structure. Moreover, the reason why inserting special tokens takes effect in inducing harmful behaviors is only empirically discussed. In this paper, we take a deeper insight into the mechanism of special token injection and propose Self-Instruct Few-Shot Jailbreaking (Self-Instruct-FSJ) facilitated with the demo-level greedy search. This framework decomposes the FSJ attack into pattern and behavior learning to exploit the model's vulnerabilities in a more generalized and efficient way. We conduct elaborate experiments to evaluate our method on common open-source models and compare it with baseline algorithms. Our code is available at https://github.com/iphosi/Self-Instruct-FSJ.
Abstract（参考訳）: 近年,大規模言語モデル(LLM)のジェイルブレイクについて,数発の悪意のあるデモが実施されている。特にZheng et al (2024)は、デモに特別なトークンを注入し、デモレベルのランダム検索を採用することで、Few-Shot Jailbreaking(FSJ)の効率向上に重点を置いている。しかし、この手法は命令応答構造を規定しているため、一般性に欠ける。また、特殊なトークンを挿入することが有害な行動を引き起こす原因については、実証的にのみ論じられる。本稿では, 特殊トークン注入のメカニズムについてより深く考察し, デモレベルの欲求探索を容易にするセルフインストラクト・ファウショット・ジェイルブレイク(Self-Instruct-FSJ)を提案する。このフレームワークはFSJ攻撃をパターンと行動学習に分解し、より一般化された効率的な方法でモデルの脆弱性を利用する。我々は,我々の手法をオープンソースモデルで評価し,ベースラインアルゴリズムと比較するための精巧な実験を行った。私たちのコードはhttps://github.com/iphosi/Self-Instruct-FSJ.comで公開されています。

関連論文リスト

Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.04296423547049]
大規模言語モデル(LLM)は様々な領域に広く適用されている。 LLMを攻撃するための転送可能なブラックボックスジェイルブレイク法であるRewrite to Jailbreak (R2J)アプローチを提案する。
論文参考訳（メタデータ） (2025-02-16T11:43:39Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [57.86886012610389]
ジェイルブレイク攻撃は意図しない有害な出力を引き起こす脆弱性を悪用する私たちは、jailbreak攻撃を防御するために設計された新しい方法論であるLayer-AdvPatcherを紹介します。我々は,2つのモデル,4つのベンチマークデータセット,および複数の最先端のジェイルブレイクベンチマークに関する広範な実験を行い,アプローチの有効性を実証した。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文参考訳（メタデータ） (2024-12-22T14:18:39Z)
SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
本稿では, LLMの外部特性, 特に入力プロンプトの作り方に着目した新しいjailbreak手法を提案する。 SIJ法は,AdvBench上の5つの有名なオープンLLMに対する攻撃成功率を100%近く達成すると同時に,従来の方法と比較して時間コストの低減を実現している。そこで本研究では,SIJ に対する対策として SelfReminderKey という簡単な防御手法を提案する。
論文参考訳（メタデータ） (2024-11-03T13:36:34Z)
An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文参考訳（メタデータ） (2024-08-17T04:43:26Z)
Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-To-Image Generation Models [15.582860145268553]
JailFuzzerは、大きな言語モデル(LLM)エージェントによって駆動される新しいファジングフレームワークである。自然かつ意味的に一貫性のあるプロンプトを生成し、従来の防御による検出の可能性を減らす。クエリオーバーヘッドを最小限に抑えたジェイルブレイク攻撃で高い成功率を達成する。
論文参考訳（メタデータ） (2024-08-01T12:54:46Z)
Improved Few-Shot Jailbreaking Can Circumvent Aligned Language Models and Their Defenses [37.56003689042975]
多数のデモ(最大数百)は、その長いコンテキスト能力を活用することで、最先端のLDMをジェイルブレイクすることができる。本稿では,[/INST]のような特別なシステムトークンの注入や,収集したデモプールからのデモレベルのランダム検索などの改良手法を提案する。
論文参考訳（メタデータ） (2024-06-03T12:59:17Z)
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。 Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。 10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文参考訳（メタデータ） (2024-03-18T18:39:53Z)
Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。 imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文参考訳（メタデータ） (2024-02-04T01:29:24Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
JailGuard: A Universal Detection Framework for LLM Prompt-based Attacks [34.95274579737075]
本稿では, LLM と MLLM をまたいだジェイルブレイクおよびハイジャック攻撃の普遍的検出フレームワークである JailGuard を提案する。 JailGuardは、攻撃は本質的に、メソッドやモダリティに関わらず、良心的な攻撃よりも堅牢ではない、という原則に基づいている。 15の既知の攻撃タイプにわたる11,000のデータ項目を含む、最初の総合的なマルチモーダルアタックデータセットを構築します。
論文参考訳（メタデータ） (2023-12-17T17:02:14Z)
FuzzLLM: A Novel and Universal Fuzzing Framework for Proactively Discovering Jailbreak Vulnerabilities in Large Language Models [11.517609196300217]
FuzzLLMは,大規模言語モデル(LLM)におけるジェイルブレイク脆弱性を積極的にテストし,発見するために設計された,自動ファジリングフレームワークである。テンプレートを使用してプロンプトの構造的整合性をキャプチャし、制約としてJailbreakクラスの重要な特徴を分離します。異なるベースクラスを強力なコンボ攻撃に統合し、制約や禁止された質問の要素を変更することで、FazLLMは手作業の少ない効率的なテストを可能にする。
論文参考訳（メタデータ） (2023-09-11T07:15:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。