論文の概要: How Sensitive Are Safety Benchmarks to Judge Configuration Choices?
- arxiv url: http://arxiv.org/abs/2604.24074v1
- Date: Mon, 27 Apr 2026 05:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.761998
- Title: How Sensitive Are Safety Benchmarks to Judge Configuration Choices?
- Title(参考訳): 安全基準はどのように構成選択を判断するか?
- Authors: Xinran Zhang,
- Abstract要約: HarmBenchのような安全ベンチマークは、モデル応答を有害または安全と分類する判断に頼っている。
判定モデルと判定プロンプトの組み合わせは,一般に一定の実装の詳細として扱われる。
審査員モデルの定式化により, 評価された有害応答率を最大24.2%にシフトした。
- 参考スコア(独自算出の注目度): 5.94231111588812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety benchmarks such as HarmBench rely on LLM judges to classify model responses as harmful or safe, yet the judge configuration, namely the combination of judge model and judge prompt, is typically treated as a fixed implementation detail. We show this assumption is problematic. Using a 2 x 2 x 3 factorial design, we construct 12 judge prompt variants along two axes, evaluation structure and instruction framing, and apply them using a single judge model, Claude Sonnet 4-6, producing 28,812 judgments over six target models and 400 HarmBench behaviors. We find that prompt wording alone, holding the judge model fixed, shifts measured harmful-response rates by up to 24.2 percentage points, with even within-condition surface rewording causing swings of up to 20.1 percentage points. Model safety rankings are moderately unstable, with mean Kendall tau = 0.89, and category-level sensitivity ranges from 39.6 percentage points for copyright to 0 percentage points for harassment. A supplementary multi-judge experiment using three judge models shows that judge-model choice adds further variance. Our results demonstrate that judge prompt wording is a substantial, previously under-examined source of measurement variance in safety benchmarking.
- Abstract(参考訳): HarmBenchのような安全性ベンチマークは、モデル応答を有害または安全であると分類するLLMの判断に頼っているが、ジャッジ構成、すなわちジャッジモデルとジャッジプロンプトの組み合わせは、通常、固定された実装詳細として扱われる。
この仮定が問題であることを示す。
2 x 2 x 3 の因子的設計を用いて、2つの軸に沿って、評価構造と命令フレーミングを判定し、1つの判定モデル Claude Sonnet 4-6 を用いて12の判定を行い、6つの対象モデルと400のHarmBench の振る舞いに対して28,812の判定を行う。
判断モデルを固定した即時文言だけで、評価された有害応答率を最大24.2ポイントシフトし、条件内面のリワードさえも最大20.1ポイントの揺らぎを引き起こすことがわかった。
モデル安全性のランキングは適度に不安定であり、平均的なKendall tau = 0.89であり、カテゴリーレベルの感度は著作権の39.6ポイントからハラスメントの0ポイントまで様々である。
3つの判断モデルを用いた補足的マルチジャッジ実験は、判断モデルの選択がさらなるばらつきをもたらすことを示す。
以上の結果から, 安全ベンチマークにおいて, 判断の迅速化は, 測定のばらつきの源泉として重要であり, 未検討であることがわかった。
関連論文リスト
- JudgeSense: A Benchmark for Prompt Sensitivity in LLM-as-a-Judge Systems [0.0]
大規模言語モデルは、他のモデルを評価するための自動判断器として、ますます多くデプロイされている。
我々は、判断感度スコア(JSS)を通じて、このプロパティを定量化するフレームワークとベンチマークであるJiceSenseを紹介します。
事実として、すべての審査員は、極性反転プロンプトアーティファクトによって駆動されるJSS付近に約0.63のクラスタをクラスタする。
コード、意思決定ログ、検証済みのパラフレーズデータセットをリリースし、標準化されたJSSレポートをサポートします。
論文 参考訳(メタデータ) (2026-04-26T00:08:30Z) - C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning [0.6138671548064355]
大型言語モデル (LLMs) は、チェーン・オブ・ソート (CoT) 推論の判断としてますます使われている。
C2-Faithは、因果性(各ステップは以前の文脈から論理的に従うのか?
二つの因果検出,因果ステップの定位,カバレッジスコアの3つの課題において,フロンティア判事の評価を行った。
論文 参考訳(メタデータ) (2026-03-05T13:36:47Z) - A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - Evaluative Fingerprints: Stable and Systematic Differences in LLM Evaluator Behavior [0.0]
審査員は一貫性があるが、互いに一致していない。
評価は3,240件を超え、中間合意はほぼゼロに近い。
審査員の平均得点は、審査員の実際の値に該当しない合成判定を生成する。
論文 参考訳(メタデータ) (2026-01-08T17:02:22Z) - When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity [21.192000569821943]
我々は、厳密な目標と検証可能な構成がなければ、ベンチマークのランキングは、ほぼノイズの多い高信頼度ランキングを生成することができると論じる。
本稿では,Arena-Hard Autoが使用するELOスタイルのアグリゲーションが崩壊し,真のランキングの不確かさをマスクすることを示す。
我々の結果は、妥当性を損なう設計上の失敗を強調し、より良いスコープで信頼性に配慮したベンチマークを構築するための実用的な原則を提供する。
論文 参考訳(メタデータ) (2025-09-24T16:26:47Z) - Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators [66.83088028268318]
本稿では,テスト時間スケーリングベンチマークの判定評価について紹介する。
3つのタスク設定の下で、3つのドメイン(推論、コード生成、命令従)での判定性能を評価する。
我々のベンチマークは、審査員が再評価において結果報酬モデルと競合する一方で、ビームサーチにおけるプロセス報酬モデルよりも一貫して悪いことを示している。
論文 参考訳(メタデータ) (2025-04-21T17:33:23Z) - Know Thy Judge: On the Robustness Meta-Evaluation of LLM Safety Judges [3.168632659778101]
我々は、一般的に見落とされがちな2つの重要な課題について強調する: (i) 迅速な感度や分布シフトなどの要因がパフォーマンスに影響を及ぼす野生における評価、(ii) 裁判官を標的とする敵攻撃。
モデル出力のスタイルなどの小さな変更は、同じデータセット上の偽陰性率で最大0.24のジャンプを引き起こす可能性がある一方で、モデル生成に対する敵対的な攻撃は、一部の裁判官を騙して、有害な世代を100%安全なものと誤分類する可能性があることを示す。
論文 参考訳(メタデータ) (2025-03-06T14:24:12Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - JudgeLM: Fine-tuned Large Language Models are Scalable Judges [48.053949045598344]
大規模言語モデル(LLM)をオープンなシナリオで評価することは、既存のベンチマークやメトリクスがそれらを包括的に測定できないため、難しい。
本稿では,拡張性のある審査員 (JudgeLM) としてLLMを微調整し,LLMを効率よく,かつ効率的に評価する手法を提案する。
我々は7B,13Bから33Bパラメータの異なるスケールでJiceLMを訓練し、その能力と振る舞いを体系的に分析する。
論文 参考訳(メタデータ) (2023-10-26T17:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。