論文の概要: GuidedBench: Equipping Jailbreak Evaluation with Guidelines
- arxiv url: http://arxiv.org/abs/2502.16903v1
- Date: Mon, 24 Feb 2025 06:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:56.446719
- Title: GuidedBench: Equipping Jailbreak Evaluation with Guidelines
- Title(参考訳): GuidedBench: ガイドラインによるジェイルブレイク評価の取得
- Authors: Ruixuan Huang, Xunguang Wang, Zongjie Li, Daoyuan Wu, Shuai Wang,
- Abstract要約: 大規模言語モデル(LLM)のジェイルブレイク手法は、安全で責任のあるAIシステムを構築する上で注目を集めている。
本稿では, より堅牢なジェイルブレイク手法評価フレームワークについて紹介し, キュレートされた有害質問データセット, 詳細なケース・バイ・ケース評価ガイドライン, およびこれらのガイドラインを備えたスコアリングシステムについて述べる。
実験の結果, 既存のjailbreak手法は, ベンチマークを用いて評価した場合, 判定精度が向上することがわかった。
- 参考スコア(独自算出の注目度): 10.603857042090521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jailbreaking methods for large language models (LLMs) have gained increasing attention for building safe and responsible AI systems. After analyzing 35 jailbreak methods across six categories, we find that existing benchmarks, relying on universal LLM-based or keyword-matching scores, lack case-specific criteria, leading to conflicting results. In this paper, we introduce a more robust evaluation framework for jailbreak methods, with a curated harmful question dataset, detailed case-by-case evaluation guidelines, and a scoring system equipped with these guidelines. Our experiments show that existing jailbreak methods exhibit better discrimination when evaluated using our benchmark. Some jailbreak methods that claim to achieve over 90% attack success rate (ASR) on other benchmarks only reach a maximum of 30.2% on our benchmark, providing a higher ceiling for more advanced jailbreak research; furthermore, using our scoring system reduces the variance of disagreements between different evaluator LLMs by up to 76.33%. This demonstrates its ability to provide more fair and stable evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)のジェイルブレイク手法は、安全で責任のあるAIシステムを構築する上で注目を集めている。
6つのカテゴリにわたる35のjailbreakメソッドを解析した結果、一般的なLLMやキーワードマッチングスコアに依存する既存のベンチマークでは、ケース固有の基準が欠如しており、矛盾する結果が得られた。
本稿では, より堅牢なジェイルブレイク手法評価フレームワークについて紹介し, キュレートされた有害質問データセット, 詳細なケース・バイ・ケース評価ガイドライン, およびこれらのガイドラインを備えたスコアリングシステムについて述べる。
実験の結果, 既存のjailbreak手法は, ベンチマークを用いて評価した場合, 判定精度が向上することがわかった。
他のベンチマークで90%以上の攻撃成功率(ASR)を達成すると主張するジェイルブレイク手法は、我々のベンチマークで最大30.2%にしか達せず、より高度なジェイルブレイク研究のための高い天井を提供する。
これは、より公平で安定した評価を提供する能力を示している。
関連論文リスト
- Rectifying Privacy and Efficacy Measurements in Machine Unlearning: A New Inference Attack Perspective [42.003102851493885]
本稿では,不正確な未学習手法の評価において重要なギャップに対処するため,RULI (Rectified Unlearning Evaluation Framework via Likelihood Inference)を提案する。
RULIは、未学習の有効性とプライバシリスクをサンプルごとの粒度で測定するために、二重目的攻撃を導入している。
既存の手法で過小評価されているプライバシーリスクを暴露し,最先端のアンラーニング手法の重大な脆弱性を明らかにした。
論文 参考訳(メタデータ) (2025-06-16T00:30:02Z) - Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。
それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文 参考訳(メタデータ) (2025-05-08T16:55:07Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing [1.4201040196058878]
大規模言語モデル(LLM)はタスクの自動化とさまざまな領域にわたるコンテンツ生成を変革した。
本稿では,分散プロンプト処理と反復改良を組み合わせた新しいジェイルブレイク機構を導入し,安全性対策を回避した。
10のサイバーセキュリティカテゴリで500の悪意あるプロンプトでテストされたこのフレームワークは、悪意のあるコードを生成する上で73.2%の成功率(SR)を達成した。
論文 参考訳(メタデータ) (2025-03-27T15:19:55Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [64.46372846359694]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。
最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、GPT-4oで46.31%、Claude-3.5-Sonnetで19.65%のASRを達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs [13.317364896194903]
大規模言語モデル(LLM)は、ゼロショット方式で複雑なタスクを実行する上で重要な機能を示している。
LLMはジェイルブレイク攻撃の影響を受けやすく、有害な出力を生成するために操作することができる。
論文 参考訳(メタデータ) (2024-06-13T17:01:40Z) - JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models [21.854909839996612]
ジェイルブレイク攻撃は、有害な応答を生成するために大規模言語モデル(LLM)を誘導する。
ジェイルブレイクの評価には合意がない。
JailbreakEvalは、jailbreakの試みを評価するツールキットである。
論文 参考訳(メタデータ) (2024-06-13T16:59:43Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Rethinking How to Evaluate Language Model Jailbreak [16.301224741410312]
言語モデルジェイルブレイクを評価するために, 3つの指標, 保護違反, 情報性, 相対真理性を提案する。
3つの悪意のある意図的データセットと3つのジェイルブレイクシステムから生成されたベンチマークデータセットで、我々の測定値を評価する。
論文 参考訳(メタデータ) (2024-04-09T15:54:16Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - A StrongREJECT for Empty Jailbreaks [72.8807309802266]
StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。
これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。
それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
論文 参考訳(メタデータ) (2024-02-15T18:58:09Z) - AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models [29.92550386563915]
ジェイルブレイク攻撃は、大規模言語モデル(LLM)のセキュリティに対する最も洗練された脅威の1つである。
LLMに対するジェイルブレイク攻撃の有効性を評価するための,革新的なフレームワークを提案する。
粗粒度評価と細粒度評価の2つの異なる評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-17T06:42:44Z) - Towards Evaluating Transfer-based Attacks Systematically, Practically,
and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。
ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。
30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文 参考訳(メタデータ) (2023-11-02T15:35:58Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - Indicators of Attack Failure: Debugging and Improving Optimization of
Adversarial Examples [29.385242714424624]
機械学習モデルの頑健さを敵の例に評価することは難しい問題である。
我々は、勾配に基づく攻撃の最適化において共通の障害を明らかにするための定量的指標のセットを定義する。
実験により,現在の対向ロバスト性評価を可視化し,デバッグし,改善するために,提案した障害指標が有効であることを示す。
論文 参考訳(メタデータ) (2021-06-18T06:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。