Fugu-MT 論文翻訳(概要): FuzzLLM: A Novel and Universal Fuzzing Framework for Proactively Discovering Jailbreak Vulnerabilities in Large Language Models

論文の概要: FuzzLLM: A Novel and Universal Fuzzing Framework for Proactively Discovering Jailbreak Vulnerabilities in Large Language Models

arxiv url: http://arxiv.org/abs/2309.05274v2
Date: Sun, 14 Apr 2024 15:39:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 23:47:12.282957
Title: FuzzLLM: A Novel and Universal Fuzzing Framework for Proactively Discovering Jailbreak Vulnerabilities in Large Language Models
Title（参考訳）: FuzzLLM: 大規模言語モデルにおけるジェイルブレイク脆弱性を積極的に発見するための新しいユニバーサルファズリングフレームワーク
Authors: Dongyu Yao, Jianshu Zhang, Ian G. Harris, Marcel Carlsson,
Abstract要約: FuzzLLMは,大規模言語モデル(LLM)におけるジェイルブレイク脆弱性を積極的にテストし,発見するために設計された,自動ファジリングフレームワークである。テンプレートを使用してプロンプトの構造的整合性をキャプチャし、制約としてJailbreakクラスの重要な特徴を分離します。異なるベースクラスを強力なコンボ攻撃に統合し、制約や禁止された質問の要素を変更することで、FazLLMは手作業の少ない効率的なテストを可能にする。
参考スコア（独自算出の注目度）: 11.517609196300217
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Jailbreak vulnerabilities in Large Language Models (LLMs), which exploit meticulously crafted prompts to elicit content that violates service guidelines, have captured the attention of research communities. While model owners can defend against individual jailbreak prompts through safety training strategies, this relatively passive approach struggles to handle the broader category of similar jailbreaks. To tackle this issue, we introduce FuzzLLM, an automated fuzzing framework designed to proactively test and discover jailbreak vulnerabilities in LLMs. We utilize templates to capture the structural integrity of a prompt and isolate key features of a jailbreak class as constraints. By integrating different base classes into powerful combo attacks and varying the elements of constraints and prohibited questions, FuzzLLM enables efficient testing with reduced manual effort. Extensive experiments demonstrate FuzzLLM's effectiveness and comprehensiveness in vulnerability discovery across various LLMs.
Abstract（参考訳）: 大規模言語モデル(LLMs)におけるジェイルブレイクの脆弱性は、サービスガイドラインに違反したコンテンツを細心の注意を払って引き起こすプロンプトを利用して、研究コミュニティの注目を集めている。モデルオーナーは、安全訓練戦略を通じて個々のジェイルブレイクプロンプトを防御できるが、この比較的パッシブなアプローチは、同様のジェイルブレイクの幅広いカテゴリーを扱うのに苦労している。この問題に対処するために、私たちはLLMのジェイルブレイク脆弱性を積極的にテストし発見するために設計された自動ファジリングフレームワークであるFuzzLLMを紹介した。テンプレートを使用してプロンプトの構造的整合性をキャプチャし、制約としてJailbreakクラスの重要な特徴を分離します。異なるベースクラスを強力なコンボ攻撃に統合し、制約や禁止された質問の要素を変更することで、FazLLMは手作業の少ない効率的なテストを可能にする。大規模な実験では、様々なLSMにわたる脆弱性発見におけるFuzzLLMの有効性と包括性を実証している。

関連論文リスト

Jailbreaking Leaves a Trace: Understanding and Detecting Jailbreak Attacks from Internal Representations of Large Language Models [2.6140509675507384]
我々はセキュリティと解釈可能性の両方の観点からジェイルブレイクを研究する。隠れアクティベーションにおける構造をキャプチャするテンソルベース潜在表現フレームワークを提案する。以上の結果から,脱獄行動が内部構造に根ざしていることが示唆された。
論文参考訳（メタデータ） (2026-02-12T02:43:17Z)
Do Internal Layers of LLMs Reveal Patterns for Jailbreak Detection? [2.6140509675507384]
大規模言語モデル(LLM)の内部表現を調べることでジェイルブレイク現象を研究する。具体的には、オープンソースのLCM GPT-Jと状態空間モデルMamba2を分析する。本研究は,ロバストなジェイルブレイク検出・防御のための内部モデル力学の活用に向けた今後の研究の方向性を示唆するものである。
論文参考訳（メタデータ） (2025-10-08T02:55:31Z)
Formalization Driven LLM Prompt Jailbreaking via Reinforcement Learning [48.100552417137656]
PASSは、初期のジェイルブレイクプロンプトを形式化された記述に変換するために強化学習を使用している。我々は、共通のオープンソースモデルに関する広範な実験を行い、攻撃の有効性を実証した。
論文参考訳（メタデータ） (2025-09-28T01:38:00Z)
LLM Jailbreak Detection for (Almost) Free! [62.466970731998714]
大規模言語モデル(LLM)は、広く使用されている場合、アライメントを通じてセキュリティを高めるが、ジェイルブレイク攻撃の影響を受けない。ジェイルブレイク検出方法は、他のモデルや複数のモデル推論の助けを借りて、ジェイルブレイク攻撃を緩和する。本稿では,入力に対する肯定的な指示を前提としたフリージェイルブレイク検出(FJD)を提案する。
論文参考訳（メタデータ） (2025-09-18T02:42:52Z)
A Domain-Based Taxonomy of Jailbreak Vulnerabilities in Large Language Models [6.946931840176725]
この研究は特に、jailbreakの脆弱性の課題に焦点を当てている。大規模な言語モデルの訓練領域に根ざした新しいジェイルブレイク攻撃の分類を導入している。
論文参考訳（メタデータ） (2025-04-07T12:05:16Z)
xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文参考訳（メタデータ） (2025-01-28T06:07:58Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
SequentialBreak: Large Language Models Can be Fooled by Embedding Jailbreak Prompts into Sequential Prompt Chains [0.0]
本稿では,大規模言語モデル(LLM)の脆弱性を利用した新しいジェイルブレイク攻撃であるSequentialBreakを紹介する。問題バンク,ダイアログ補完,ゲーム環境などの事例に限らず,有害なプロンプトをLCMを騙して有害な応答を発生させる良質なプロンプトに埋め込む,いくつかのシナリオについて論じる。大規模な実験では、SequentialBreakは単一のクエリしか使用せず、攻撃成功率を大幅に向上することを示した。
論文参考訳（メタデータ） (2024-11-10T11:08:28Z)
MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。 MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文参考訳（メタデータ） (2024-09-26T10:12:19Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-To-Image Generation Models [15.582860145268553]
JailFuzzerは、大きな言語モデル(LLM)エージェントによって駆動される新しいファジングフレームワークである。自然かつ意味的に一貫性のあるプロンプトを生成し、従来の防御による検出の可能性を減らす。クエリオーバーヘッドを最小限に抑えたジェイルブレイク攻撃で高い成功率を達成する。
論文参考訳（メタデータ） (2024-08-01T12:54:46Z)
RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent [24.487441771427434]
我々は,コンテキスト認識型ジェイルブレイクプロンプトを生成するためのマルチエージェントLLMシステムRedAgentを提案する。我々のシステムは、ほとんどのブラックボックスLSMをたった5つのクエリでジェイルブレイクすることができ、既存のレッドチーム方式の効率を2倍に向上させることができる。すべての問題を報告し、バグ修正のためにOpenAIとMetaと通信しました。
論文参考訳（メタデータ） (2024-07-23T17:34:36Z)
WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。 WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文参考訳（メタデータ） (2024-06-26T17:31:22Z)
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。 Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。 10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文参考訳（メタデータ） (2024-03-18T18:39:53Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。 LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-12T15:38:28Z)
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。 AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文参考訳（メタデータ） (2023-10-03T19:44:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。