論文の概要: Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing
- arxiv url: http://arxiv.org/abs/2503.21598v1
- Date: Thu, 27 Mar 2025 15:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:53:38.653480
- Title: Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing
- Title(参考訳): Prompt, Divide, and Conquer:Segmented and Distributed Prompt Processingによる大規模言語モデル安全フィルタのバイパス
- Authors: Johan Wahréus, Ahmed Hussain, Panos Papadimitratos,
- Abstract要約: 大規模言語モデル(LLM)はタスクの自動化とさまざまな領域にわたるコンテンツ生成を変革した。
本稿では,分散プロンプト処理と反復改良を組み合わせた新しいジェイルブレイク機構を導入し,安全性対策を回避した。
10のサイバーセキュリティカテゴリで500の悪意あるプロンプトでテストされたこのフレームワークは、悪意のあるコードを生成する上で73.2%の成功率(SR)を達成した。
- 参考スコア(独自算出の注目度): 1.4201040196058878
- License:
- Abstract: Large Language Models (LLMs) have transformed task automation and content generation across various domains while incorporating safety filters to prevent misuse. We introduce a novel jailbreaking framework that employs distributed prompt processing combined with iterative refinements to bypass these safety measures, particularly in generating malicious code. Our architecture consists of four key modules: prompt segmentation, parallel processing, response aggregation, and LLM-based jury evaluation. Tested on 500 malicious prompts across 10 cybersecurity categories, the framework achieves a 73.2% Success Rate (SR) in generating malicious code. Notably, our comparative analysis reveals that traditional single-LLM judge evaluation overestimates SRs (93.8%) compared to our LLM jury system (73.2%), with manual verification confirming that single-judge assessments often accept incomplete implementations. Moreover, we demonstrate that our distributed architecture improves SRs by 12% over the non-distributed approach in an ablation study, highlighting both the effectiveness of distributed prompt processing and the importance of robust evaluation methodologies in assessing jailbreak attempts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな領域にわたるタスクの自動化とコンテンツ生成を変革し、安全フィルタを組み込んで誤用を防ぐ。
本稿では,これらの安全性対策,特に悪意のあるコードの生成を回避すべく,分散プロンプト処理と反復改良を組み合わせた新しいジェイルブレイクフレームワークを提案する。
我々のアーキテクチャは、4つの重要なモジュールで構成されている: 即時セグメンテーション、並列処理、応答集約、および LLM に基づく陪審評価。
10のサイバーセキュリティカテゴリで500の悪意あるプロンプトでテストされたこのフレームワークは、悪意のあるコードを生成する上で73.2%の成功率(SR)を達成した。
特に、我々の比較分析では、従来の単一LLM審査員評価が、LLM審査員システム(73.2%)と比較して、SRを過大評価している(93.8%)。
さらに,我々の分散アーキテクチャは,非分散アプローチよりも12%向上し,分散プロンプト処理の有効性とジェイルブレイクの試み評価におけるロバストな評価手法の重要性を強調した。
関連論文リスト
- Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge [90.8674158031845]
提案するクラウド・ベース・コンピレーション・アセスメントは,提案するクラウド・レスポンスを,候補の応答と比較するための追加のクラウド・レスポンスを導入する。
このプロセスはLLM-as-a-Judgeを効果的に誘導し、より詳細なCoT判定を提供する。
提案手法は, 高い品質のCoTを製造し, 蒸留を判断し, 拒絶サンプリングにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-18T03:31:06Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs [4.492376241514766]
大規模言語モデル(LLM)のアライメントは、安全性などのガイドラインを強制するために使用される。
しかし、アライメントは、入力を変更して安全でない出力を誘導するjailbreak攻撃に直面して失敗する。
LLMアライメントのロバスト性を評価する手法を提案し,評価する。
論文 参考訳(メタデータ) (2025-01-27T22:13:05Z) - CySecBench: Generative AI-based CyberSecurity-focused Prompt Dataset for Benchmarking Large Language Models [0.0]
CySecBenchは、サイバーセキュリティドメインのジェイルブレイク技術を評価するために特別に設計された12のプロンプトを含む包括的なデータセットである。
データセットは10の異なるアタックタイプカテゴリに分類され、ジェイルブレイクの試みをより一貫性のある正確な評価を可能にする、厳密なプロンプトが特徴である。
実験の結果,商業用ブラックボックスLLMから有害成分を抽出し,ChatGPTで65%,Geminiで88%の成功率を達成できた。
論文 参考訳(メタデータ) (2025-01-02T16:37:04Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Red-Teaming Large Language Models using Chain of Utterances for
Safety-Alignment [32.2246459413988]
我々は,新しい安全評価ベンチマークRED-EVALを提案する。
広範にデプロイされたモデルであっても、CoU(Chain of Utterances-based)のプロンプトの影響を受けやすいことを示す。
また、RED-EVALが8つのオープンソースLCMにまたがる一貫性を実証し、レッドチームの試みの86%以上で有害な応答を発生させることを示した。
論文 参考訳(メタデータ) (2023-08-18T16:27:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。