論文の概要: FRACTURED-SORRY-Bench: Framework for Revealing Attacks in Conversational Turns Undermining Refusal Efficacy and Defenses over SORRY-Bench (Automated Multi-shot Jailbreaks)
- arxiv url: http://arxiv.org/abs/2408.16163v2
- Date: Thu, 7 Nov 2024 15:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 19:50:01.835045
- Title: FRACTURED-SORRY-Bench: Framework for Revealing Attacks in Conversational Turns Undermining Refusal Efficacy and Defenses over SORRY-Bench (Automated Multi-shot Jailbreaks)
- Title(参考訳): FRACTURED-SORRY-Bench:SORRY-Benchに対する拒絶効果と防御を損なう会話ターンにおける攻撃の回避のためのフレームワーク(自動マルチショットジェイルブレイク)
- Authors: Aman Priyanshu, Supriti Vijay,
- Abstract要約: 本稿では,有害なクエリを一見無害なサブクエストに分解することで,敵のプロンプトを生成する手法を提案する。
提案手法は, GPT-4, GPT-4o, GPT-4o-mini, GPT-3.5-Turbo モデルに対して, 攻撃成功率 (ASR) を最大で+46.22%向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces FRACTURED-SORRY-Bench, a framework for evaluating the safety of Large Language Models (LLMs) against multi-turn conversational attacks. Building upon the SORRY-Bench dataset, we propose a simple yet effective method for generating adversarial prompts by breaking down harmful queries into seemingly innocuous sub-questions. Our approach achieves a maximum increase of +46.22\% in Attack Success Rates (ASRs) across GPT-4, GPT-4o, GPT-4o-mini, and GPT-3.5-Turbo models compared to baseline methods. We demonstrate that this technique poses a challenge to current LLM safety measures and highlights the need for more robust defenses against subtle, multi-turn attacks.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)のマルチターン会話攻撃に対する安全性を評価するフレームワークであるFRACTURED-SORRY-Benchを紹介する。
SORRY-Benchデータセットに基づいて,有害なクエリを一見無害なサブクエストに分解することで,敵のプロンプトを生成する,シンプルかつ効果的な手法を提案する。
提案手法は, GPT-4, GPT-4o, GPT-4o-mini, GPT-3.5-Turbo モデルに対して, ベースライン法と比較して, 攻撃成功率 (ASR) の最大増加率 (46.22 %) を達成する。
我々は,この手法が現在のLLM安全対策の課題となり,微妙なマルチターン攻撃に対するより堅牢な防御の必要性を強調した。
関連論文リスト
- SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [46.25325034315104]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。
具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。
特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文 参考訳(メタデータ) (2025-02-16T12:08:08Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Towards Robust Multimodal Large Language Models Against Jailbreak Attacks [24.491648943977605]
本稿では,敵対的雑音を発生させる攻撃ステップとモデル更新ステップとを交互に行うSafeMLLMを紹介する。
攻撃ステップでは、SafeMLLMは新たに提案されたコントラスト埋め込み攻撃(CoE-Attack)を通じて敵の摂動を発生させる。
我々は,SafeMLLMを6つのMLLMと6つのジェイルブレイク法で比較した。
論文 参考訳(メタデータ) (2025-02-02T03:45:49Z) - The TIP of the Iceberg: Revealing a Hidden Class of Task-in-Prompt Adversarial Attacks on LLMs [1.9424018922013224]
LLMに対する新たなジェイルブレイク攻撃のクラスを提示する。
提案手法では,シーケンス・ツー・シーケンス・タスクをモデルが間接的に禁止された入力を生成するプロンプトに組み込む。
我々は,6つの最先端言語モデルにおいて,安全対策を回避できることを実証した。
論文 参考訳(メタデータ) (2025-01-27T12:48:47Z) - Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models [50.89022445197919]
大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。
LLMは脱獄攻撃に弱いため、有害な反応が生じる。
我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
論文 参考訳(メタデータ) (2024-10-15T10:07:15Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Raccoon: Prompt Extraction Benchmark of LLM-Integrated Applications [8.51254190797079]
本稿では,抽出攻撃に対するモデルの感受性を包括的に評価するRacoonベンチマークを提案する。
本手法は,無防備シナリオと防御シナリオの両方でモデルを評価する。
本研究は,防衛の欠如を契機に,盗難を助長するための普遍的感受性を強調し,保護時に顕著なレジリエンスを示すOpenAIモデルを示した。
論文 参考訳(メタデータ) (2024-06-10T18:57:22Z) - Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。
第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。
第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T15:37:15Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。