Fugu-MT 論文翻訳(概要): FRACTURED-SORRY-Bench: Framework for Revealing Attacks in Conversational Turns Undermining Refusal Efficacy and Defenses over SORRY-Bench

論文の概要: FRACTURED-SORRY-Bench: Framework for Revealing Attacks in Conversational Turns Undermining Refusal Efficacy and Defenses over SORRY-Bench

arxiv url: http://arxiv.org/abs/2408.16163v1
Date: Wed, 28 Aug 2024 22:51:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-30 15:34:56.825191
Title: FRACTURED-SORRY-Bench: Framework for Revealing Attacks in Conversational Turns Undermining Refusal Efficacy and Defenses over SORRY-Bench
Title（参考訳）: FRACTURED-SORRY-Bench:SORRY-Benchに対する拒絶効果と防御を損なう会話ターンにおける攻撃の回避のためのフレームワーク
Authors: Aman Priyanshu, Supriti Vijay,
Abstract要約: 本稿では,有害なクエリを一見無害なサブクエストに分解することで,敵のプロンプトを生成する手法を提案する。提案手法は, GPT-4, GPT-4o, GPT-4o-mini, GPT-3.5-Turbo モデルに対して, 攻撃成功率 (ASR) を最大で+46.22%向上させる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper introduces FRACTURED-SORRY-Bench, a framework for evaluating the safety of Large Language Models (LLMs) against multi-turn conversational attacks. Building upon the SORRY-Bench dataset, we propose a simple yet effective method for generating adversarial prompts by breaking down harmful queries into seemingly innocuous sub-questions. Our approach achieves a maximum increase of +46.22\% in Attack Success Rates (ASRs) across GPT-4, GPT-4o, GPT-4o-mini, and GPT-3.5-Turbo models compared to baseline methods. We demonstrate that this technique poses a challenge to current LLM safety measures and highlights the need for more robust defenses against subtle, multi-turn attacks.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)のマルチターン会話攻撃に対する安全性を評価するフレームワークであるFRACTURED-SORRY-Benchを紹介する。 SORRY-Benchデータセットに基づいて,有害なクエリを一見無害なサブクエストに分解することで,敵のプロンプトを生成する,シンプルかつ効果的な手法を提案する。提案手法は, GPT-4, GPT-4o, GPT-4o-mini, GPT-3.5-Turbo モデルに対して, ベースライン法と比較して, 攻撃成功率 (ASR) の最大増加率 (46.22 %) を達成する。我々は,この手法が現在のLLM安全対策の課題となり,微妙なマルチターン攻撃に対するより堅牢な防御の必要性を強調した。

関連論文リスト

How Few-shot Demonstrations Affect Prompt-based Defenses Against LLM Jailbreak Attacks [5.646008099702766]
大規模言語モデル(LLM)は、安全アライメントをバイパスするジェイルブレイク攻撃による脅威の増加に直面している。 Role-Oriented Prompts (RoP) や Task-Oriented Prompts (ToP) のようなプロンプトベースの防衛は効果を示したが、これらの防衛戦略における数発のデモンストレーションの役割はいまだ不明である。我々は,RoPの安全性を最大4.5%向上させ,ToPの有効性を最大21.2%低下させ,タスク命令の注意をそらすことにより,RoPの安全性を最大4.5%向上させることを示した。
論文参考訳（メタデータ） (2026-02-04T07:54:51Z)
Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models [54.61181161508336]
MFA(Multi-Faceted Attack)は、防衛装備型ビジョンランゲージモデル(VLM)の一般的な安全性上の脆弱性を明らかにするフレームワークである。 MFAの中核となるコンポーネントはアテンション・トランスファー・アタック(ATA)であり、競合する目的を持ったメタタスク内に有害な命令を隠す。 MFAは58.5%の成功率を獲得し、既存の手法を一貫して上回っている。
論文参考訳（メタデータ） (2025-11-20T07:12:54Z)
Efficient LLM Safety Evaluation through Multi-Agent Debate [18.818180932660294]
本稿では, 批判者, 擁護者, 審査員間の構造化討論を通じて, 小型言語モデル(SLM)を用いた費用効率の高いマルチエージェント判定フレームワークを提案する。安全判断を厳格に評価するために,大規模な人手によるジェイルブレイクベンチマークであるHAJailBenchを構築した。本フレームワークは,推定コストを大幅に削減しつつ,HAJailBench上のGPT-4o判定値に匹敵する一致を実現している。
論文参考訳（メタデータ） (2025-11-09T14:06:55Z)
SafeTy Reasoning Elicitation Alignment for Multi-Turn Dialogues [9.762621950740995]
悪意のある攻撃者は、大きな言語モデル(LLM)をマルチターン対話で利用することができる。マルチTurnダイアログ(STREAM)のためのSafeTy Reasoning Elicitation Alignmentという新しい防御機構を提案する。
論文参考訳（メタデータ） (2025-05-31T18:38:23Z)
CPA-RAG:Covert Poisoning Attacks on Retrieval-Augmented Generation in Large Language Models [15.349703228157479]
Retrieval-Augmented Generation (RAG)は、外部知識を取り入れた大規模言語モデル(LLM)を強化する。既存のRAGシステムに対する中毒法には、一般化の欠如や、敵のテキストにおける流布の欠如など、制限がある。 CPA-RAGは,検索プロセスを操作することで,対象の回答を誘導するクエリ関連テキストを生成するブラックボックスの対向フレームワークである。
論文参考訳（メタデータ） (2025-05-26T11:48:32Z)
MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文参考訳（メタデータ） (2025-03-24T20:38:42Z)
SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [46.25325034315104]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文参考訳（メタデータ） (2025-02-16T12:08:08Z)
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。有害なクエリを良心的な推論タスクに再構成する。 RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文参考訳（メタデータ） (2025-02-16T09:27:44Z)
Towards Robust Multimodal Large Language Models Against Jailbreak Attacks [24.491648943977605]
本稿では,敵対的雑音を発生させる攻撃ステップとモデル更新ステップとを交互に行うSafeMLLMを紹介する。攻撃ステップでは、SafeMLLMは新たに提案されたコントラスト埋め込み攻撃(CoE-Attack)を通じて敵の摂動を発生させる。我々は,SafeMLLMを6つのMLLMと6つのジェイルブレイク法で比較した。
論文参考訳（メタデータ） (2025-02-02T03:45:49Z)
The TIP of the Iceberg: Revealing a Hidden Class of Task-in-Prompt Adversarial Attacks on LLMs [1.9424018922013224]
LLMに対する新たなジェイルブレイク攻撃のクラスを提示する。提案手法では,シーケンス・ツー・シーケンス・タスクをモデルが間接的に禁止された入力を生成するプロンプトに組み込む。我々は,6つの最先端言語モデルにおいて,安全対策を回避できることを実証した。
論文参考訳（メタデータ） (2025-01-27T12:48:47Z)
Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models [50.89022445197919]
大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。 LLMは脱獄攻撃に弱いため、有害な反応が生じる。我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
論文参考訳（メタデータ） (2024-10-15T10:07:15Z)
Counterfactual Explainable Incremental Prompt Attack Analysis on Large Language Models [32.03992137755351]
本研究は,大規模言語モデル(LLM)における安全性とプライバシ対策の推進的必要性に光を当てるものである。本稿では,攻撃効果を定量的に測定するために,特定の方法でプロンプトを誘導する新しい手法であるCEIPAを提案する。
論文参考訳（メタデータ） (2024-07-12T14:26:14Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Raccoon: Prompt Extraction Benchmark of LLM-Integrated Applications [8.51254190797079]
本稿では,抽出攻撃に対するモデルの感受性を包括的に評価するRacoonベンチマークを提案する。本手法は,無防備シナリオと防御シナリオの両方でモデルを評価する。本研究は,防衛の欠如を契機に,盗難を助長するための普遍的感受性を強調し,保護時に顕著なレジリエンスを示すOpenAIモデルを示した。
論文参考訳（メタデータ） (2024-06-10T18:57:22Z)
Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文参考訳（メタデータ） (2024-06-07T15:37:15Z)
Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。 LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文参考訳（メタデータ） (2024-05-30T14:40:35Z)
SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文参考訳（メタデータ） (2024-02-07T17:33:54Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。