Fugu-MT 論文翻訳(概要): Judge Reliability Harness: Stress Testing the Reliability of LLM Judges

論文の概要: Judge Reliability Harness: Stress Testing the Reliability of LLM Judges

arxiv url: http://arxiv.org/abs/2603.05399v1
Date: Thu, 05 Mar 2026 17:27:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.342686
Title: Judge Reliability Harness: Stress Testing the Reliability of LLM Judges
Title（参考訳）: 裁判官の信頼性のハーネス: LLM判事の信頼性をストレステストする
Authors: Sunishchal Dev, Andrew Sloan, Joshua Kavner, Nicholas Kong, Morgan Sandler,
Abstract要約: Judge Reliability Harnessは、LCM判事の信頼性をテストする検証スイートを構築するためのオープンソースライブラリである。安全性,説得性,誤用,エージェント行動の4つのベンチマークで,最先端の4つの審査員を評価した。
参考スコア（独自算出の注目度）: 1.1699027359021665
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present the Judge Reliability Harness, an open source library for constructing validation suites that test the reliability of LLM judges. As LLM based scoring is widely deployed in AI benchmarks, more tooling is needed to efficiently assess the reliability of these methods. Given a benchmark dataset and an LLM judge configuration, the harness generates reliability tests that evaluate both binary judgment accuracy and ordinal grading performance for free-response and agentic task formats. We evaluate four state-of-the-art judges across four benchmarks spanning safety, persuasion, misuse, and agentic behavior, and find meaningful variation in performance across models and perturbation types, highlighting opportunities to improve the robustness of LLM judges. No judge that we evaluated is uniformly reliable across benchmarks using our harness. For example, our preliminary experiments on judges revealed consistency issues as measured by accuracy in judging another LLM's ability to complete a task due to simple text formatting changes, paraphrasing, changes in verbosity, and flipping the ground truth label in LLM-produced responses. The code for this tool is available at: https://github.com/RANDCorporation/judge-reliability-harness
Abstract（参考訳）: LLM審査員の信頼性をテストするための検証スイートを構築するためのオープンソースライブラリであるJice Reliability Harnessを提示する。 LLMベースのスコアリングがAIベンチマークに広くデプロイされているため、これらのメソッドの信頼性を効率的に評価するためには、より多くのツールが必要である。ベンチマークデータセットとLLM判定設定が与えられた場合、このハーネスは、自由応答およびエージェントタスクフォーマットの2値判定精度と順序付け性能の両方を評価する信頼性テストを生成する。安全, 説得, 誤用, エージェント行動の4つのベンチマークにまたがる4つの最先端の審査員を評価し, モデルおよび摂動タイプ間での有意義な性能変化を見出し, LLM審査員の堅牢性向上の機会を強調した。評価した判断は、ベンチマーク全体にわたって、ハーネスを使って一様に信頼できるものではありません。例えば、審査員に対する予備実験では、簡単なテキストフォーマットの変更、言い換え、冗長性の変化、LLM生成応答における基底真理ラベルの反転によるタスク完了能力の精度による整合性の問題を明らかにした。このツールのコードは、https://github.com/RANDCorporation/judge-reliability-harnessで入手できる。

関連論文リスト

Are We on the Right Way to Assessing LLM-as-a-Judge? [16.32248269615178]
人間のアノテーションを必要とせずにLCM審査員の質を評価する新しい評価スイートであるSageを紹介する。合理的選択理論の公理に触発されたセージは、LLM-as-a-Judgeを測定するための2つの新しいレンズ(局所的な自己整合性と大域的な論理的整合性)を導入した。 Sage に基づいて,現在最先端の LLM は,スコアリングとペアワイズの両方において,審査員として機能する場合に,重大な信頼性上の問題があることを明らかにした。
論文参考訳（メタデータ） (2025-12-17T23:49:55Z)
Who Judges the Judge? LLM Jury-on-Demand: Building Trustworthy LLM Evaluation Systems [2.9141470183751674]
スケーラブルでコンテキスト対応な評価のための動的学習ベースのフレームワークを提案する。本手法は,LLM審査員が人間専門家といつ一致するかを評価するために,信頼度予測器のセットを訓練する。要約およびRAGベンチマーク実験により,我々の動的陪審法は,単一判定基準と静的判定基準の両方よりも,人間の判断との相関が著しく高いことを示した。
論文参考訳（メタデータ） (2025-12-01T15:26:20Z)
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文参考訳（メタデータ） (2025-09-25T13:04:29Z)
CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。 LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文参考訳（メタデータ） (2025-07-14T17:56:29Z)
Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文参考訳（メタデータ） (2025-06-03T14:44:23Z)
Don't Judge Code by Its Cover: Exploring Biases in LLM Judges for Code Evaluation [14.521056434373213]
評価子として大きな言語モデルを使用すると、コード評価タスクに拡張される。 LLMは、表面的なバリエーションで意味論的に等価なコードを公平かつ堅牢に評価できますか? コード評価における潜在的なバイアスを6種類定義し,この問題を包括的に検討した。
論文参考訳（メタデータ） (2025-05-22T04:49:33Z)
Verdict: A Library for Scaling Judge-Time Compute [5.468405526095168]
Verdictは、自動評価器の精度、信頼性、解釈性を高めるために、判断時間計算をスケールするためのオープンソースのライブラリである。評決は、マグニチュードの大きな微調整された審査員との競争を成し遂げる。
論文参考訳（メタデータ） (2025-02-25T09:26:44Z)
JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文参考訳（メタデータ） (2024-10-16T17:58:19Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。