Fugu-MT 論文翻訳(概要): GuidedBench: Measuring and Mitigating the Evaluation Discrepancies of In-the-wild LLM Jailbreak Methods

論文の概要: GuidedBench: Measuring and Mitigating the Evaluation Discrepancies of In-the-wild LLM Jailbreak Methods

arxiv url: http://arxiv.org/abs/2502.16903v2
Date: Wed, 09 Jul 2025 12:13:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-10 15:30:52.071357
Title: GuidedBench: Measuring and Mitigating the Evaluation Discrepancies of In-the-wild LLM Jailbreak Methods
Title（参考訳）: GuidedBench: LLMジェイルブレーク法における評価の相違点の測定と緩和
Authors: Ruixuan Huang, Xunguang Wang, Zongjie Li, Daoyuan Wu, Shuai Wang,
Abstract要約: 2022年以降,37件のジェイルブレイク研究に基づいて,系統的な測定を行った。既存の評価システムにはケース特化基準が欠如しており,その有効性や安全性に関する誤解を招く結果が得られた。 GuidedBenchは、キュレートされた有害な質問データセット、詳細なケースバイケース評価ガイドライン、これらのガイドラインと統合された評価システムを含む、新しいベンチマークである。
参考スコア（独自算出の注目度）: 10.603857042090521
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the growing interest in jailbreak methods as an effective red-teaming tool for building safe and responsible large language models (LLMs), flawed evaluation system designs have led to significant discrepancies in their effectiveness assessments. We conduct a systematic measurement study based on 37 jailbreak studies since 2022, focusing on both the methods and the evaluation systems they employ. We find that existing evaluation systems lack case-specific criteria, resulting in misleading conclusions about their effectiveness and safety implications. This paper advocates a shift to a more nuanced, case-by-case evaluation paradigm. We introduce GuidedBench, a novel benchmark comprising a curated harmful question dataset, detailed case-by-case evaluation guidelines and an evaluation system integrated with these guidelines -- GuidedEval. Experiments demonstrate that GuidedBench offers more accurate measurements of jailbreak performance, enabling meaningful comparisons across methods and uncovering new insights overlooked in previous evaluations. GuidedEval reduces inter-evaluator variance by at least 76.03\%. Furthermore, we observe that incorporating guidelines can enhance the effectiveness of jailbreak methods themselves, offering new insights into both attack strategies and evaluation paradigms.
Abstract（参考訳）: 安全で責任ある大規模言語モデル(LLM)を構築するための効果的なレッドチームツールとしてのジェイルブレイク手法への関心が高まっているにもかかわらず、欠陥のある評価システムの設計は、その有効性評価において大きな違いをもたらしている。我々は2022年以降,37件のジェイルブレイク研究に基づく体系的な測定を行い,採用方法と評価システムの両方に焦点をあてた。既存の評価システムにはケース特化基準が欠如しており,その有効性や安全性に関する誤解を招く結果が得られた。本稿では,より微妙なケース・バイ・ケース評価パラダイムへの移行を提唱する。 GuidedBenchは、キュレートされた有害な質問データセット、詳細なケースバイケース評価ガイドライン、これらのガイドラインと統合された評価システムを含む、新しいベンチマークである。 GuidedBenchは、jailbreakのパフォーマンスをより正確に測定し、メソッド間で有意義な比較を可能にし、以前の評価で見落とされた新たな洞察を明らかにする。 GuidedEvalは、評価対象間の分散を少なくとも76.03\%削減する。さらに,このガイドラインを取り入れることで,ジェイルブレイク手法自体の有効性が向上し,攻撃戦略と評価パラダイムの両方に新たな洞察がもたらされることが観察された。

関連論文リスト

Rectifying Privacy and Efficacy Measurements in Machine Unlearning: A New Inference Attack Perspective [42.003102851493885]
本稿では,不正確な未学習手法の評価において重要なギャップに対処するため,RULI (Rectified Unlearning Evaluation Framework via Likelihood Inference)を提案する。 RULIは、未学習の有効性とプライバシリスクをサンプルごとの粒度で測定するために、二重目的攻撃を導入している。既存の手法で過小評価されているプライバシーリスクを暴露し,最先端のアンラーニング手法の重大な脆弱性を明らかにした。
論文参考訳（メタデータ） (2025-06-16T00:30:02Z)
Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文参考訳（メタデータ） (2025-05-08T16:55:07Z)
Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-22T08:34:35Z)
Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing [1.4201040196058878]
大規模言語モデル(LLM)はタスクの自動化とさまざまな領域にわたるコンテンツ生成を変革した。本稿では,分散プロンプト処理と反復改良を組み合わせた新しいジェイルブレイク機構を導入し,安全性対策を回避した。 10のサイバーセキュリティカテゴリで500の悪意あるプロンプトでテストされたこのフレームワークは、悪意のあるコードを生成する上で73.2%の成功率(SR)を達成した。
論文参考訳（メタデータ） (2025-03-27T15:19:55Z)
LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文参考訳（メタデータ） (2025-03-04T12:55:07Z)
Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文参考訳（メタデータ） (2024-12-22T14:18:39Z)
IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [64.46372846359694]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。例えば、GPT-4oで46.31%、Claude-3.5-Sonnetで19.65%のASRを達成した。
論文参考訳（メタデータ） (2024-10-29T07:15:56Z)
Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs [13.317364896194903]
大規模言語モデル(LLM)は、ゼロショット方式で複雑なタスクを実行する上で重要な機能を示している。 LLMはジェイルブレイク攻撃の影響を受けやすく、有害な出力を生成するために操作することができる。
論文参考訳（メタデータ） (2024-06-13T17:01:40Z)
JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models [21.854909839996612]
ジェイルブレイク攻撃は、有害な応答を生成するために大規模言語モデル(LLM)を誘導する。ジェイルブレイクの評価には合意がない。 JailbreakEvalは、jailbreakの試みを評価するツールキットである。
論文参考訳（メタデータ） (2024-06-13T16:59:43Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。包括的な、自動化された、論理的な3つのフレームワークを提案します。このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文参考訳（メタデータ） (2024-06-06T07:24:41Z)
Rethinking How to Evaluate Language Model Jailbreak [16.301224741410312]
言語モデルジェイルブレイクを評価するために, 3つの指標, 保護違反, 情報性, 相対真理性を提案する。 3つの悪意のある意図的データセットと3つのジェイルブレイクシステムから生成されたベンチマークデータセットで、我々の測定値を評価する。
論文参考訳（メタデータ） (2024-04-09T15:54:16Z)
JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。 JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文参考訳（メタデータ） (2024-03-28T02:44:02Z)
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。 Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。 10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文参考訳（メタデータ） (2024-03-18T18:39:53Z)
A StrongREJECT for Empty Jailbreaks [72.8807309802266]
StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
論文参考訳（メタデータ） (2024-02-15T18:58:09Z)
AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models [29.92550386563915]
ジェイルブレイク攻撃は、大規模言語モデル(LLM)のセキュリティに対する最も洗練された脅威の1つである。 LLMに対するジェイルブレイク攻撃の有効性を評価するための,革新的なフレームワークを提案する。粗粒度評価と細粒度評価の2つの異なる評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-17T06:42:44Z)
Towards Evaluating Transfer-based Attacks Systematically, Practically, and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。 30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文参考訳（メタデータ） (2023-11-02T15:35:58Z)
Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文参考訳（メタデータ） (2023-03-21T14:24:58Z)
Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文参考訳（メタデータ） (2022-05-20T20:50:17Z)
Indicators of Attack Failure: Debugging and Improving Optimization of Adversarial Examples [29.385242714424624]
機械学習モデルの頑健さを敵の例に評価することは難しい問題である。我々は、勾配に基づく攻撃の最適化において共通の障害を明らかにするための定量的指標のセットを定義する。実験により,現在の対向ロバスト性評価を可視化し,デバッグし,改善するために,提案した障害指標が有効であることを示す。
論文参考訳（メタデータ） (2021-06-18T06:57:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。