論文の概要: When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels
- arxiv url: http://arxiv.org/abs/2605.06652v1
- Date: Thu, 07 May 2026 17:56:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:12.071247
- Title: When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels
- Title(参考訳): ベンチマークが存在しない場合: ゼロトルースラベルを使わずにLLMの安全性を比較検証する
- Authors: Sushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz, Birk Torpmann-Hagen, Sunniva Maria Stordal Bjørklund, Leon Moonen, Klas Pettersen, Michael A. Riegler,
- Abstract要約: 多くのデプロイメントは、関連する言語、セクター、または規制体制のためにラベル付きベンチマークが存在する前に、安全のために候補言語モデルを比較する必要がある。
我々は、この設定をベンチマークレス比較安全スコアとして定式化し、シナリオベースの監査をデプロイ証拠として解釈できる契約を指定する。
スコアは固定されたシナリオパック、ルーリック、監査、審査、サンプリング設定、再実行予算でのみ有効である。
- 参考スコア(独自算出の注目度): 34.86529553336423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many deployments must compare candidate language models for safety before a labeled benchmark exists for the relevant language, sector, or regulatory regime. We formalize this setting as benchmarkless comparative safety scoring and specify the contract under which a scenario-based audit can be interpreted as deployment evidence. Scores are valid only under a fixed scenario pack, rubric, auditor, judge, sampling configuration, and rerun budget. Because no labels are available, we replace ground-truth agreement with an instrumental-validity chain: responsiveness to a controlled safe-versus-abliterated contrast, dominance of target-driven variance over auditor and judge artifacts, and stability across reruns. We instantiate the chain in SimpleAudit, a local-first scoring instrument, and validate it on a Norwegian safety pack. Safe and abliterated targets separate with AUROC values between 0.89 and 1.00, target identity is the dominant variance component ($η^2 \approx 0.52$), and severity profiles stabilize by ten reruns. Applying the same chain to Petri shows that it admits both tools. The substantial differences arise upstream of the chain, in claim-contract enforcement and deployment fit. A Norwegian public-sector procurement case comparing Borealis and Gemma 3 demonstrates the resulting evidence in practice: the safer model depends on scenario category and risk measure. Consequently, scores, matched deltas, critical rates, uncertainty, and the auditor and judge used must be reported together rather than collapsed into a single ranking.
- Abstract(参考訳): 多くのデプロイメントは、関連する言語、セクター、または規制体制のためにラベル付きベンチマークが存在する前に、安全のために候補言語モデルを比較する必要がある。
我々は、この設定をベンチマークレス比較安全スコアとして定式化し、シナリオベースの監査をデプロイメント証拠として解釈できる契約を指定する。
スコアは固定されたシナリオパック、ルーリック、監査、審査、サンプリング設定、再実行予算でのみ有効である。
ラベルを使用できないため、我々は、制御された安全可読コントラストに対する応答性、監査者や判断成果物に対する目標駆動分散の優位性、再実行間の安定性といった、地道的な合意を器物価連鎖に置き換える。
我々は、このチェーンをローカルファーストの楽譜楽器SimpleAuditでインスタンス化し、ノルウェーの安全パックで検証する。
AUROC値は0.89から1.00に分離され、ターゲットIDは支配的な分散成分(η^2 \approx 0.52$)であり、重度プロファイルは10回の再実行で安定化する。
Petriに同じチェーンを適用すると、どちらのツールも認めていることがわかる。
実質的な違いは、クレーム-契約の実施とデプロイメントの適合において、チェーンの上流に現れます。
Borealis と Gemma 3 を比較したノルウェーの公共セクター調達事件は、結果として得られた証拠を実証している。
その結果、スコア、一致したデルタ、臨界レート、不確実性、そして使用される監査人および審査員は、単一のランキングに崩壊するのではなく、一緒に報告されなければならない。
関連論文リスト
- Beyond Accuracy: Policy Invariance as a Reliability Test for LLM Safety Judges [26.595399077062638]
LLM-as-a-Judgeパイプラインは、エージェント安全性のデファクト評価器となっている。
既存のベンチマークでは、評定がエージェントの行動に依存するか、それとも単に評価方針がどう語られるかをチェックすることなく、その評定を根底からのプロキシとして扱う。
我々は、証明された等価な書き換えの下でのルーブリック・セマンティック不変性、意図的な厳密なシフトの下でのルーブリック・スレッショルド不変性、曖昧さを意識したキャリブレーションの3つの検証可能な原則として運用する。
論文 参考訳(メタデータ) (2026-05-07T12:49:09Z) - Prompt-Induced Score Variance in Zero-Shot Binary Vision-Language Safety Classification [43.86209535250233]
クロスプロンプト分散は、プロンプトレベルの不一致とより高いエラーと強く関連している。
トレーニングフリーの平均アンサンブルは、14のデータセットモデル評価ペアすべてでNLLを改善する。
ゼロショットVLMの第1スコアに対する信頼性ストレステストとみなす。
論文 参考訳(メタデータ) (2026-05-01T01:06:30Z) - A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - VAL-Bench: Measuring Value Alignment in Language Models [10.745372809345412]
大きな言語モデル(LLM)は、出力が人間の決定を形作るタスクにますます使われています。
既存のベンチマークは、主に拒否や事前定義された安全違反を追跡するが、モデルが一貫性のある価値システムを保持するかどうかを明らかにしない。
VAL-Bench(Value ALignment Benchmark)を導入し、モデルが公開討論の両面において安定的な価値スタンスを維持しているかどうかを評価する。
論文 参考訳(メタデータ) (2025-10-06T23:55:48Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity [21.192000569821943]
我々は、厳密な目標と検証可能な構成がなければ、ベンチマークのランキングは、ほぼノイズの多い高信頼度ランキングを生成することができると論じる。
本稿では,Arena-Hard Autoが使用するELOスタイルのアグリゲーションが崩壊し,真のランキングの不確かさをマスクすることを示す。
我々の結果は、妥当性を損なう設計上の失敗を強調し、より良いスコープで信頼性に配慮したベンチマークを構築するための実用的な原則を提供する。
論文 参考訳(メタデータ) (2025-09-24T16:26:47Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。