Fugu-MT 論文翻訳(概要): When Scanners Lie: Evaluator Instability in LLM Red-Teaming

論文の概要: When Scanners Lie: Evaluator Instability in LLM Red-Teaming

arxiv url: http://arxiv.org/abs/2603.14633v1
Date: Sun, 15 Mar 2026 22:08:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.928782
Title: When Scanners Lie: Evaluator Instability in LLM Red-Teaming
Title（参考訳）: スキャナーが嘘をついたとき: LLMのレッドチームにおける評価器の不安定性
Authors: Lidor Erez, Omer Hofman, Tamir Nizri, Roman Vainshtein,
Abstract要約: 脆弱性スキャナーは、異なる攻撃型成功率(ASR)を測定することにより、セキュリティリスクを評価するためにますます使用される。しかし、これらの測定の妥当性は、しばしば見過ごされるコンポーネント、すなわち攻撃が成功したかどうかを判断する評価者に依存します。本研究では,一般に使用されているオープンソーススキャナが,評価器の部品に依存する測定不安定性を示すことを示す。
参考スコア（独自算出の注目度）: 3.823638706744939
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated LLM vulnerability scanners are increasingly used to assess security risks by measuring different attack type success rates (ASR). Yet the validity of these measurements hinges on an often-overlooked component: the evaluator who determines whether an attack has succeeded. In this study, we demonstrate that commonly used open-source scanners exhibit measurement instability that depends on the evaluator component. Consequently, changing the evaluator while keeping the attacks and model outputs constant can significantly alter the reported ASR. To tackle this problem, we present a two-phase, reliability-aware evaluation framework. In the first phase, we quantify evaluator disagreement to identify attack categories where ASR reliability cannot be assumed. In the second phase, we propose a verification-based evaluation method where evaluators are validated by an independent verifier, enabling reliability assessment without relying on extensive human annotation. Applied to the widely used Garak scanner, we observe that 22 of 25 attack categories exhibit evaluator instability, reflected in high disagreement among evaluators. Our approach raises evaluator accuracy from 72% to 89% while enabling selective deployment to control cost and computational overhead. We further quantify evaluator uncertainty in ASR estimates, showing that reported vulnerability scores can vary by up to 33% depending on the evaluator. Our results indicate that the outputs of vulnerability scanners are highly sensitive to the choice of evaluators. Our framework offers a practical approach to quantify unreliable evaluations and enhance the reliability of measurements in automated LLM security assessments.
Abstract（参考訳）: 自動LLM脆弱性スキャナは、異なる攻撃型成功率(ASR)を測定することで、セキュリティリスクを評価するために、ますます利用されている。しかし、これらの測定の妥当性は、しばしば見過ごされるコンポーネント、すなわち攻撃が成功したかどうかを判断する評価者に依存します。本研究では,一般に使用されているオープンソーススキャナーが,評価器構成に依存する測定不安定性を示すことを示す。これにより、攻撃とモデル出力を一定に保ちながら評価器を変更することで、報告されたASRを著しく変更することができる。この問題に対処するために,信頼性に配慮した2段階評価フレームワークを提案する。第1フェーズでは、ASRの信頼性を仮定できない攻撃カテゴリを特定するために、評価者不一致を定量化する。第2のフェーズでは、評価者が独立した検証者によって検証される検証に基づく評価手法を提案し、広範囲な人的アノテーションに頼ることなく信頼性評価を可能にする。広く使われているガラクスキャナーに応用すると,25の攻撃カテゴリのうち22の22が評価器の不安定性を示し,評価器間の高い不一致を反映していることがわかった。提案手法は,コストと計算オーバーヘッドを選択的に制御しながら,評価器の精度を72%から89%に向上させる。さらに,ASR推定値における評価器の不確かさを定量化し,報告された脆弱性スコアが評価器によって最大33%まで変化することを示した。その結果,脆弱性スキャナの出力は評価器の選択に非常に敏感であることが示唆された。我々のフレームワークは、信頼性の低い評価を定量化し、自動LLMセキュリティアセスメントにおける測定の信頼性を高めるための実践的なアプローチを提供する。

論文の概要: When Scanners Lie: Evaluator Instability in LLM Red-Teaming

関連論文リスト