論文の概要: How Real is Your Jailbreak? Fine-grained Jailbreak Evaluation with Anchored Reference
- arxiv url: http://arxiv.org/abs/2601.03288v1
- Date: Sun, 04 Jan 2026 07:54:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.032182
- Title: How Real is Your Jailbreak? Fine-grained Jailbreak Evaluation with Anchored Reference
- Title(参考訳): あなたのジェイルブレイクはどこまで本物か? アンコールド・レファレンスによる詳細なジェイルブレイク評価
- Authors: Songyang Liu, Chaozhuo Li, Rui Pu, Litian Zhang, Chenxu Wang, Zejian Chen, Yuting Zhang, Yiming Hei,
- Abstract要約: FJARは、アンロックされた参照を持つきめ細かいジェイルブレイク評価フレームワークである。
まず、jailbreakレスポンスを5つの細かいカテゴリに分類します。
そこで我々は,高品質なアンカード参照を構築するために,新しい無害木分解手法を提案する。
- 参考スコア(独自算出の注目度): 20.565609053126384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jailbreak attacks present a significant challenge to the safety of Large Language Models (LLMs), yet current automated evaluation methods largely rely on coarse classifications that focus mainly on harmfulness, leading to substantial overestimation of attack success. To address this problem, we propose FJAR, a fine-grained jailbreak evaluation framework with anchored references. We first categorized jailbreak responses into five fine-grained categories: Rejective, Irrelevant, Unhelpful, Incorrect, and Successful, based on the degree to which the response addresses the malicious intent of the query. This categorization serves as the basis for FJAR. Then, we introduce a novel harmless tree decomposition approach to construct high-quality anchored references by breaking down the original queries. These references guide the evaluator in determining whether the response genuinely fulfills the original query. Extensive experiments demonstrate that FJAR achieves the highest alignment with human judgment and effectively identifies the root causes of jailbreak failures, providing actionable guidance for improving attack strategies.
- Abstract(参考訳): 大規模言語モデル(LLMs)の安全性には、脱獄攻撃が大きな課題となっているが、現在の自動評価手法は、主に有害性に焦点を当てた粗い分類に依存しており、攻撃成功のかなりの過大評価につながっている。
この問題に対処するため、我々はFJAR(FJAR)を提案し、FJARは、アンロックされた参照を持つ、きめ細かいジェイルブレイク評価フレームワークである。
私たちはまず、レスポンスがクエリの悪意のある意図に対処する度合いに基づいて、Rejective、Irrelevant、Unhelpful、Unhelpful、Incorrect、Successの5つのきめ細かいカテゴリに分類しました。
この分類はFJARの基礎となる。
そこで本研究では,従来のクエリを分解して高品質なアンカー参照を構築するために,新しい無害木分解手法を提案する。
これらの参照は、応答が元のクエリを真に満たすかどうかを決定するための評価器をガイドする。
大規模な実験により、FJARは人間の判断と最高の整合性を達成し、ジェイルブレイク失敗の根本原因を効果的に特定し、攻撃戦略を改善するための実用的なガイダンスを提供する。
関連論文リスト
- JADES: A Universal Framework for Jailbreak Assessment via Decompositional Scoring [45.76641811031552]
本稿では,JADES(Jailbreak Assessment via Decompositional Scoring)について紹介する。
その鍵となるメカニズムは、入力された有害な質問を一連の重み付けされたサブ問合せに自動的に分解し、各サブ問合せをスコアし、サブスコアを最終決定に重み付けすることである。
JADES on JailbreakQRは400対のjailbreakプロンプトと応答からなる新しいベンチマークで、それぞれが人間によって細心の注意を払って注釈付けされている。
論文 参考訳(メタデータ) (2025-08-28T14:40:27Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models [21.854909839996612]
ジェイルブレイク攻撃は、有害な応答を生成するために大規模言語モデル(LLM)を誘導する。
ジェイルブレイクの評価には合意がない。
JailbreakEvalは、jailbreakの試みを評価するツールキットである。
論文 参考訳(メタデータ) (2024-06-13T16:59:43Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z) - A StrongREJECT for Empty Jailbreaks [72.8807309802266]
StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。
これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。
それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
論文 参考訳(メタデータ) (2024-02-15T18:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。