Fugu-MT 論文翻訳(概要): JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models

論文の概要: JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models

arxiv url: http://arxiv.org/abs/2404.01318v2
Date: Tue, 23 Apr 2024 16:41:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 18:56:32.381029
Title: JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models
Title（参考訳）: JailbreakBench: 大規模言語モデルのジェイルブレークのためのオープンなロバストネスベンチマーク
Authors: Patrick Chao, Edoardo Debenedetti, Alexander Robey, Maksym Andriushchenko, Francesco Croce, Vikash Sehwag, Edgar Dobriban, Nicolas Flammarion, George J. Pappas, Florian Tramer, Hamed Hassani, Eric Wong,
Abstract要約: ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。 JailbreakBenchは、jailbreak攻撃を評価するためのオープンソースのベンチマークである。
参考スコア（独自算出の注目度）: 123.66104233291065
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Jailbreak attacks cause large language models (LLMs) to generate harmful, unethical, or otherwise objectionable content. Evaluating these attacks presents a number of challenges, which the current collection of benchmarks and evaluation techniques do not adequately address. First, there is no clear standard of practice regarding jailbreaking evaluation. Second, existing works compute costs and success rates in incomparable ways. And third, numerous works are not reproducible, as they withhold adversarial prompts, involve closed-source code, or rely on evolving proprietary APIs. To address these challenges, we introduce JailbreakBench, an open-sourced benchmark with the following components: (1) an evolving repository of state-of-the-art adversarial prompts, which we refer to as jailbreak artifacts; (2) a jailbreaking dataset comprising 100 behaviors -- both original and sourced from prior work -- which align with OpenAI's usage policies; (3) a standardized evaluation framework that includes a clearly defined threat model, system prompts, chat templates, and scoring functions; and (4) a leaderboard that tracks the performance of attacks and defenses for various LLMs. We have carefully considered the potential ethical implications of releasing this benchmark, and believe that it will be a net positive for the community. Over time, we will expand and adapt the benchmark to reflect technical and methodological advances in the research community.
Abstract（参考訳）: ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。これらの攻撃を評価することは、現在のベンチマークや評価技術が適切に対処していない多くの課題を示す。第一に、脱獄評価に関する明確な基準はない。第二に、既存の作業はコストと成功率を相容れない方法で計算します。そして第3に、多くの著作物は再現不可能で、敵のプロンプトを無視したり、クローズドソースのコードに関わったり、プロプライエタリなAPIの進化に依存している。これらの課題に対処するために,我々は,(1)最先端の敵対的プロンプトの進化するリポジトリである JailbreakBench ,(2) OpenAI の使用方針に沿った100の動作 – オリジナルおよびソース – を含むjailbreaking データセット,(3) 明確に定義された脅威モデル,システムプロンプト,チャットテンプレート,スコアリング機能を含む標準化された評価フレームワーク,(4) さまざまな LLM に対する攻撃と防御のパフォーマンスを追跡するリーダボード,といったコンポーネントをオープンソースとして導入した JailbreakBench を紹介した。我々は、このベンチマークのリリースによる倫理的影響を慎重に検討し、コミュニティにとってプラスになると考えている。今後は、研究コミュニティの技術的・方法論的な進歩を反映して、ベンチマークを拡大し、適応していく。

関連論文リスト

Many-Turn Jailbreaking [65.04921693379944]
そこで本研究では,JailbreakされたLLMを1つ以上のターゲットクエリで連続的にテストするマルチターンジェイルブレイクについて検討する。我々は、一連のオープンソースモデルとクローズドソースモデルでこの設定をベンチマークするために、Multi-Turn Jailbreak Benchmark (MTJ-Bench)を構築した。
論文参考訳（メタデータ） (2025-08-09T00:02:39Z)
GuidedBench: Equipping Jailbreak Evaluation with Guidelines [10.603857042090521]
大規模言語モデル(LLM)のジェイルブレイク手法は、安全で責任のあるAIシステムを構築する上で注目を集めている。本稿では, より堅牢なジェイルブレイク手法評価フレームワークについて紹介し, キュレートされた有害質問データセット, 詳細なケース・バイ・ケース評価ガイドライン, およびこれらのガイドラインを備えたスコアリングシステムについて述べる。実験の結果, 既存のjailbreak手法は, ベンチマークを用いて評価した場合, 判定精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-24T06:57:27Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-To-Image Generation Models [15.582860145268553]
JailFuzzerは、大きな言語モデル(LLM)エージェントによって駆動される新しいファジングフレームワークである。自然かつ意味的に一貫性のあるプロンプトを生成し、従来の防御による検出の可能性を減らす。クエリオーバーヘッドを最小限に抑えたジェイルブレイク攻撃で高い成功率を達成する。
論文参考訳（メタデータ） (2024-08-01T12:54:46Z)
WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。 WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文参考訳（メタデータ） (2024-06-26T17:31:22Z)
JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models [21.854909839996612]
Jailbreak攻撃は、禁止命令に対する有害な応答を生成するために、LLM(Large Language Models)を誘導することを目的としている。ジェイルブレイクの試みが成功するかどうかを評価する方法には(当然のことながら)合意がない。 JailbreakEvalは、Jailbreakの試みの評価に焦点を当てた、ユーザフレンドリーなツールキットである。
論文参考訳（メタデータ） (2024-06-13T16:59:43Z)
Rethinking How to Evaluate Language Model Jailbreak [16.301224741410312]
言語モデルジェイルブレイクを評価するために, 3つの指標, 保護違反, 情報性, 相対真理性を提案する。 3つの悪意のある意図的データセットと3つのジェイルブレイクシステムから生成されたベンチマークデータセットで、我々の測定値を評価する。
論文参考訳（メタデータ） (2024-04-09T15:54:16Z)
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。 Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。 10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文参考訳（メタデータ） (2024-03-18T18:39:53Z)
Semantic Mirror Jailbreak: Genetic Algorithm Based Jailbreak Prompts Against Open-source LLMs [30.8029926520819]
大規模言語モデル(LLM)は入力シーケンスに基づいてテキストを生成するが、ジェイルブレイク攻撃には弱い。ジェイルブレイクプロンプトは、クエリに使用する元の質問よりも意味的に多様である。セマンティック・ミラー・ジェイルブレイク(SMJ)アプローチを導入し,従来の質問と意味的に類似したジェイルブレイクプロンプトを生成することでLCMをバイパスする手法を提案する。
論文参考訳（メタデータ） (2024-02-21T15:13:50Z)
A StrongREJECT for Empty Jailbreaks [72.8807309802266]
StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
論文参考訳（メタデータ） (2024-02-15T18:58:09Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。