論文の概要: Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing
- arxiv url: http://arxiv.org/abs/2503.21598v1
- Date: Thu, 27 Mar 2025 15:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 18:49:11.581756
- Title: Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing
- Title(参考訳): Prompt, Divide, and Conquer:Segmented and Distributed Prompt Processingによる大規模言語モデル安全フィルタのバイパス
- Authors: Johan Wahréus, Ahmed Hussain, Panos Papadimitratos,
- Abstract要約: 大規模言語モデル(LLM)はタスクの自動化とさまざまな領域にわたるコンテンツ生成を変革した。
本稿では,分散プロンプト処理と反復改良を組み合わせた新しいジェイルブレイク機構を導入し,安全性対策を回避した。
10のサイバーセキュリティカテゴリで500の悪意あるプロンプトでテストされたこのフレームワークは、悪意のあるコードを生成する上で73.2%の成功率(SR)を達成した。
- 参考スコア(独自算出の注目度): 1.4201040196058878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have transformed task automation and content generation across various domains while incorporating safety filters to prevent misuse. We introduce a novel jailbreaking framework that employs distributed prompt processing combined with iterative refinements to bypass these safety measures, particularly in generating malicious code. Our architecture consists of four key modules: prompt segmentation, parallel processing, response aggregation, and LLM-based jury evaluation. Tested on 500 malicious prompts across 10 cybersecurity categories, the framework achieves a 73.2% Success Rate (SR) in generating malicious code. Notably, our comparative analysis reveals that traditional single-LLM judge evaluation overestimates SRs (93.8%) compared to our LLM jury system (73.2%), with manual verification confirming that single-judge assessments often accept incomplete implementations. Moreover, we demonstrate that our distributed architecture improves SRs by 12% over the non-distributed approach in an ablation study, highlighting both the effectiveness of distributed prompt processing and the importance of robust evaluation methodologies in assessing jailbreak attempts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな領域にわたるタスクの自動化とコンテンツ生成を変革し、安全フィルタを組み込んで誤用を防ぐ。
本稿では,これらの安全性対策,特に悪意のあるコードの生成を回避すべく,分散プロンプト処理と反復改良を組み合わせた新しいジェイルブレイクフレームワークを提案する。
我々のアーキテクチャは、4つの重要なモジュールで構成されている: 即時セグメンテーション、並列処理、応答集約、および LLM に基づく陪審評価。
10のサイバーセキュリティカテゴリで500の悪意あるプロンプトでテストされたこのフレームワークは、悪意のあるコードを生成する上で73.2%の成功率(SR)を達成した。
特に、我々の比較分析では、従来の単一LLM審査員評価が、LLM審査員システム(73.2%)と比較して、SRを過大評価している(93.8%)。
さらに,我々の分散アーキテクチャは,非分散アプローチよりも12%向上し,分散プロンプト処理の有効性とジェイルブレイクの試み評価におけるロバストな評価手法の重要性を強調した。
関連論文リスト
- AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Debate-Driven Multi-Agent LLMs for Phishing Email Detection [0.0]
エージェント間の偽りの議論をシミュレートしてフィッシングメールを検出する多エージェント大規模言語モデル(LLM)を提案する。
提案手法では,2つの LLM エージェントを用いて,最終判断を代弁する判断エージェントを用いて,分類課題の論拠を提示する。
結果は、議論の構造自体が、余分なプロンプト戦略を伴わずに正確な決定を下すのに十分であることを示している。
論文 参考訳(メタデータ) (2025-03-27T23:18:14Z) - GuidedBench: Equipping Jailbreak Evaluation with Guidelines [10.603857042090521]
大規模言語モデル(LLM)のジェイルブレイク手法は、安全で責任のあるAIシステムを構築する上で注目を集めている。
本稿では, より堅牢なジェイルブレイク手法評価フレームワークについて紹介し, キュレートされた有害質問データセット, 詳細なケース・バイ・ケース評価ガイドライン, およびこれらのガイドラインを備えたスコアリングシステムについて述べる。
実験の結果, 既存のjailbreak手法は, ベンチマークを用いて評価した場合, 判定精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-24T06:57:27Z) - Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge [90.8674158031845]
提案するクラウド・ベース・コンピレーション・アセスメントは,提案するクラウド・レスポンスを,候補の応答と比較するための追加のクラウド・レスポンスを導入する。
このプロセスはLLM-as-a-Judgeを効果的に誘導し、より詳細なCoT判定を提供する。
提案手法は, 高い品質のCoTを製造し, 蒸留を判断し, 拒絶サンプリングにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-18T03:31:06Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - CySecBench: Generative AI-based CyberSecurity-focused Prompt Dataset for Benchmarking Large Language Models [0.0]
CySecBenchは、サイバーセキュリティドメインのジェイルブレイク技術を評価するために特別に設計された12のプロンプトを含む包括的なデータセットである。
データセットは10の異なるアタックタイプカテゴリに分類され、ジェイルブレイクの試みをより一貫性のある正確な評価を可能にする、厳密なプロンプトが特徴である。
実験の結果,商業用ブラックボックスLLMから有害成分を抽出し,ChatGPTで65%,Geminiで88%の成功率を達成できた。
論文 参考訳(メタデータ) (2025-01-02T16:37:04Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Red-Teaming Large Language Models using Chain of Utterances for
Safety-Alignment [32.2246459413988]
我々は,新しい安全評価ベンチマークRED-EVALを提案する。
広範にデプロイされたモデルであっても、CoU(Chain of Utterances-based)のプロンプトの影響を受けやすいことを示す。
また、RED-EVALが8つのオープンソースLCMにまたがる一貫性を実証し、レッドチームの試みの86%以上で有害な応答を発生させることを示した。
論文 参考訳(メタデータ) (2023-08-18T16:27:04Z) - Coverage-based Example Selection for In-Context Learning [27.215972147196805]
BERTScore-Recall (BSR) がテスト入力の健全な側面をよりよく示すより良い例を選択していることを示す。
6つのタスクにまたがる15のデータセットと7つの LLM に対して、(1) BSR は、ボード全体のコンテキスト内サンプル選択において優れた指標であり、(2) 構成タスクでは、Set-BSR は、平均17ポイントまで独立したランキングを上回ります。
論文 参考訳(メタデータ) (2023-05-24T08:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。