論文の概要: When Scanners Lie: Evaluator Instability in LLM Red-Teaming
- arxiv url: http://arxiv.org/abs/2603.14633v1
- Date: Sun, 15 Mar 2026 22:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.928782
- Title: When Scanners Lie: Evaluator Instability in LLM Red-Teaming
- Title(参考訳): スキャナーが嘘をついたとき: LLMのレッドチームにおける評価器の不安定性
- Authors: Lidor Erez, Omer Hofman, Tamir Nizri, Roman Vainshtein,
- Abstract要約: 脆弱性スキャナーは、異なる攻撃型成功率(ASR)を測定することにより、セキュリティリスクを評価するためにますます使用される。
しかし、これらの測定の妥当性は、しばしば見過ごされるコンポーネント、すなわち攻撃が成功したかどうかを判断する評価者に依存します。
本研究では,一般に使用されているオープンソーススキャナが,評価器の部品に依存する測定不安定性を示すことを示す。
- 参考スコア(独自算出の注目度): 3.823638706744939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated LLM vulnerability scanners are increasingly used to assess security risks by measuring different attack type success rates (ASR). Yet the validity of these measurements hinges on an often-overlooked component: the evaluator who determines whether an attack has succeeded. In this study, we demonstrate that commonly used open-source scanners exhibit measurement instability that depends on the evaluator component. Consequently, changing the evaluator while keeping the attacks and model outputs constant can significantly alter the reported ASR. To tackle this problem, we present a two-phase, reliability-aware evaluation framework. In the first phase, we quantify evaluator disagreement to identify attack categories where ASR reliability cannot be assumed. In the second phase, we propose a verification-based evaluation method where evaluators are validated by an independent verifier, enabling reliability assessment without relying on extensive human annotation. Applied to the widely used Garak scanner, we observe that 22 of 25 attack categories exhibit evaluator instability, reflected in high disagreement among evaluators. Our approach raises evaluator accuracy from 72% to 89% while enabling selective deployment to control cost and computational overhead. We further quantify evaluator uncertainty in ASR estimates, showing that reported vulnerability scores can vary by up to 33% depending on the evaluator. Our results indicate that the outputs of vulnerability scanners are highly sensitive to the choice of evaluators. Our framework offers a practical approach to quantify unreliable evaluations and enhance the reliability of measurements in automated LLM security assessments.
- Abstract(参考訳): 自動LLM脆弱性スキャナは、異なる攻撃型成功率(ASR)を測定することで、セキュリティリスクを評価するために、ますます利用されている。
しかし、これらの測定の妥当性は、しばしば見過ごされるコンポーネント、すなわち攻撃が成功したかどうかを判断する評価者に依存します。
本研究では,一般に使用されているオープンソーススキャナーが,評価器構成に依存する測定不安定性を示すことを示す。
これにより、攻撃とモデル出力を一定に保ちながら評価器を変更することで、報告されたASRを著しく変更することができる。
この問題に対処するために,信頼性に配慮した2段階評価フレームワークを提案する。
第1フェーズでは、ASRの信頼性を仮定できない攻撃カテゴリを特定するために、評価者不一致を定量化する。
第2のフェーズでは、評価者が独立した検証者によって検証される検証に基づく評価手法を提案し、広範囲な人的アノテーションに頼ることなく信頼性評価を可能にする。
広く使われているガラクスキャナーに応用すると,25の攻撃カテゴリのうち22の22が評価器の不安定性を示し,評価器間の高い不一致を反映していることがわかった。
提案手法は,コストと計算オーバーヘッドを選択的に制御しながら,評価器の精度を72%から89%に向上させる。
さらに,ASR推定値における評価器の不確かさを定量化し,報告された脆弱性スコアが評価器によって最大33%まで変化することを示した。
その結果,脆弱性スキャナの出力は評価器の選択に非常に敏感であることが示唆された。
我々のフレームワークは、信頼性の低い評価を定量化し、自動LLMセキュリティアセスメントにおける測定の信頼性を高めるための実践的なアプローチを提供する。
関連論文リスト
- A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.8821834954637]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。
私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。
我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文 参考訳(メタデータ) (2025-11-19T06:46:33Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Evaluating the Evaluators: Trust in Adversarial Robustness Tests [17.06660302788049]
AttackBenchは、新しい最適度基準に基づいて既存の攻撃実装をランク付けする評価ツールである。
このフレームワークは、一貫したテスト条件を実行し、継続的な更新を可能にする。
論文 参考訳(メタデータ) (2025-07-04T10:07:26Z) - Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces [5.266869303483375]
本研究では、エンド・ツー・エンドのASRモデルの総合的な解析により、誤り検出のための信頼度スコアの信頼性を評価する。
その結果,信頼度スコアは転写精度と相関するが,誤り検出性能は限定的であることがわかった。
これらの知見は、信頼性スコアの限界と、ASR結果のユーザインタラクションと説明可能性を改善するためのより洗練されたアプローチの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-03-19T11:33:40Z) - Know Thy Judge: On the Robustness Meta-Evaluation of LLM Safety Judges [3.168632659778101]
我々は、一般的に見落とされがちな2つの重要な課題について強調する: (i) 迅速な感度や分布シフトなどの要因がパフォーマンスに影響を及ぼす野生における評価、(ii) 裁判官を標的とする敵攻撃。
モデル出力のスタイルなどの小さな変更は、同じデータセット上の偽陰性率で最大0.24のジャンプを引き起こす可能性がある一方で、モデル生成に対する敵対的な攻撃は、一部の裁判官を騙して、有害な世代を100%安全なものと誤分類する可能性があることを示す。
論文 参考訳(メタデータ) (2025-03-06T14:24:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。