論文の概要: Know Thy Judge: On the Robustness Meta-Evaluation of LLM Safety Judges
- arxiv url: http://arxiv.org/abs/2503.04474v1
- Date: Thu, 06 Mar 2025 14:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:01.687611
- Title: Know Thy Judge: On the Robustness Meta-Evaluation of LLM Safety Judges
- Title(参考訳): 裁判長の知る: LLMの安全判事のロバスト性メタ評価について
- Authors: Francisco Eiras, Eliott Zemour, Eric Lin, Vaikkunth Mugunthan,
- Abstract要約: 我々は、一般的に見落とされがちな2つの重要な課題について強調する: (i) 迅速な感度や分布シフトなどの要因がパフォーマンスに影響を及ぼす野生における評価、(ii) 裁判官を標的とする敵攻撃。
モデル出力のスタイルなどの小さな変更は、同じデータセット上の偽陰性率で最大0.24のジャンプを引き起こす可能性がある一方で、モデル生成に対する敵対的な攻撃は、一部の裁判官を騙して、有害な世代を100%安全なものと誤分類する可能性があることを示す。
- 参考スコア(独自算出の注目度): 3.168632659778101
- License:
- Abstract: Large Language Model (LLM) based judges form the underpinnings of key safety evaluation processes such as offline benchmarking, automated red-teaming, and online guardrailing. This widespread requirement raises the crucial question: can we trust the evaluations of these evaluators? In this paper, we highlight two critical challenges that are typically overlooked: (i) evaluations in the wild where factors like prompt sensitivity and distribution shifts can affect performance and (ii) adversarial attacks that target the judge. We highlight the importance of these through a study of commonly used safety judges, showing that small changes such as the style of the model output can lead to jumps of up to 0.24 in the false negative rate on the same dataset, whereas adversarial attacks on the model generation can fool some judges into misclassifying 100% of harmful generations as safe ones. These findings reveal gaps in commonly used meta-evaluation benchmarks and weaknesses in the robustness of current LLM judges, indicating that low attack success under certain judges could create a false sense of security.
- Abstract(参考訳): LLM(Large Language Model)ベースの判断は、オフラインベンチマーク、自動化されたレッドチーム、オンラインガードレールといった重要な安全性評価プロセスの基盤を形成する。
この広範囲にわたる要求は、重要な疑問を提起する: これらの評価者の評価を信頼できますか?
本稿では,通常見過ごされる2つの重要な課題を取り上げる。
一 急激な感度や分布変化などの要因が性能に影響を及ぼしうる野生における評価
二 裁判官を狙う敵の攻撃
モデル出力のスタイルのような小さな変更は、同じデータセット上の偽陰性率で最大0.24のジャンプを引き起こす可能性がある一方で、モデル生成に対する敵対的な攻撃は、一部の裁判官を騙して、有害な世代を安全であると誤分類する可能性があることを示す。
これらの結果は、一般的に使われているメタ評価ベンチマークのギャップと、現在のLLM審査員の堅牢性の弱点を明らかにし、特定の審査員の下での攻撃成功率が低いことが、セキュリティの誤った感覚を生じさせることを示している。
関連論文リスト
- PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges [6.609843448260634]
LLM-as-a-judgeパラダイムは,大規模言語モデルを評価するアプローチとして急速に普及している。
本稿では,人間間の合意が高いクリーンなシナリオに焦点を当てる。
我々は、複雑性や長さを早めるための感度や、寛大さへの傾向など、審査モデルの脆弱性を識別する。
論文 参考訳(メタデータ) (2024-06-18T13:49:54Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。
本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。
判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models [29.92550386563915]
本稿では,大規模言語モデルに対するジェイルブレイク攻撃の有効性を評価するための,革新的なフレームワークを提案する。
粗粒度評価と細粒度評価の2つの異なる評価フレームワークを提案する。
我々は、ジェイルブレイクのプロンプトに特化して、総合的な真実データセットを開発する。
論文 参考訳(メタデータ) (2024-01-17T06:42:44Z) - Familiarity-Based Open-Set Recognition Under Adversarial Attacks [9.934489379453812]
本研究では, False Familiarity と False Novelty の2種類の攻撃に対する親和性スコアに対する勾配に基づく敵攻撃について検討した。
逆反応スコアを代替OSRスコアルールとして定式化し,MLSの親和性スコアと高い相関性を示す。
論文 参考訳(メタデータ) (2023-11-08T20:17:35Z) - CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T01:22:40Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Fairness Evaluation in Presence of Biased Noisy Labels [84.12514975093826]
本稿では,グループ間の雑音の仮定がリスク評価モデルの予測バイアス特性に与える影響を評価するための感度分析フレームワークを提案する。
2つの実世界の刑事司法データセットに関する実験結果は、観測されたラベルの小さなバイアスでさえ、ノイズのある結果に基づく分析結果の結論に疑問を投げかけることができることを示している。
論文 参考訳(メタデータ) (2020-03-30T20:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。