論文の概要: RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator
- arxiv url: http://arxiv.org/abs/2605.21748v1
- Date: Wed, 20 May 2026 21:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.998503
- Title: RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator
- Title(参考訳): RankJudge: LLM-as-a-Judge合成ベンチマークジェネレータ
- Authors: Zhenwei Tang, Zhaoyan Liu, Rasa Hosseinzadeh, Tongzi Wu, Keyvan Golestan, Jesse C. Cresswell,
- Abstract要約: RankJudgeは、参照文書に基づいたマルチターン会話に対してLSM-as-a-judgeを評価するためのベンチマークジェネレータである。
機械学習、バイオメディシン、ファイナンスの各分野にRangeJudgeを実装し、21人のフロンティアLSM審査員を評価し、Bradley-Terryモデルを介して審査員をランク付けする。
- 参考スコア(独自算出の注目度): 16.137474142159277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As interactive LLM-based applications are created and refined, model developers need to evaluate the quality of generated text along many possible axes. For simpler systems, human evaluation may be practical, but in complicated systems like conversational chatbots, the amount of generated text can overwhelm human annotation resources. Model developers have begun to rely heavily on auto-evaluation, where LLMs are also used to judge generation quality. However, existing LLM-as-a-judge benchmarks largely focus on simple Q\&A tasks that do not match the complexity of multi-turn conversations. We introduce RankJudge, a benchmark generator for evaluating LLM-as-a-judge on multi-turn conversations grounded in reference documents. RankJudge creates pairs of conversations where one conversation has a single flaw injected into one turn. This construction allows paired conversations to be labeled unambiguously as better or worse, and precisely isolates failure categories to individual turns, enabling a strict joint correctness criterion for judging. We implement RankJudge across the domains of machine learning, biomedicine, and finance, evaluate 21 frontier LLM judges, and rank those judges via the Bradley-Terry model. Our formulation also allows ranking each conversation pair with difficulty ratings, which we use to dynamically curate the evaluation slice to reduce label noise, as confirmed via human annotation. We find that judge rankings are stable under partial observability, coarser correctness criteria, and an alternative random-walk rating algorithm.
- Abstract(参考訳): インタラクティブなLCMベースのアプリケーションが作成および洗練されるため、モデル開発者は、多くの可能な軸に沿って生成されたテキストの品質を評価する必要がある。
しかし会話型チャットボットのような複雑なシステムでは、生成されたテキストの量は、人間のアノテーションリソースを圧倒する可能性がある。
モデル開発者は自動評価に大きく依存し始めており、LLMは生成品質の判断にも使われている。
しかし、既存のLCM-as-a-judgeベンチマークは主に、マルチターン会話の複雑さにマッチしない単純なQ&Aタスクに焦点を当てている。
参照文書をベースとしたマルチターン会話において, LLM-as-a-judge の評価を行うベンチマークジェネレータである RankJudge を導入する。
RankJudgeは、ひとつの会話に1つの欠陥が1つのターンに注入された、一連の会話を生成する。
この構成により、ペア化された会話は、明らかに良いか悪いかでラベル付けされ、失敗カテゴリを個別のターンに正確に分離し、判断のための厳密な共同正当性基準を可能にする。
我々は、機械学習、バイオメディシン、ファイナンスの各分野にRangeJudgeを実装し、21人のフロンティアLSM審査員を評価し、Bradley-Terryモデルを介して審査員をランク付けする。
また,評価スライスを動的にキュレートし,ラベルノイズを低減するために,人間のアノテーションで確認した。
判定ランクは部分的可観測性, 粗度基準, 代替ランダムウォーク評価アルゴリズムの下で安定であることがわかった。
関連論文リスト
- Bias in the Loop: Auditing LLM-as-a-Judge for Software Engineering [0.0]
大規模な言語モデルは、コードのアーティファクトを評価するために裁判官としてますます使われています。
現在のプラクティスには、信頼性とバイアスの原則的な説明が欠けている。
計測ファーストレンズを用いたLCM-as-a-Judgeの符号化について検討する。
論文 参考訳(メタデータ) (2026-04-18T02:35:05Z) - JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation [13.831735556002426]
小型言語モデル(SLM)は様々な推論タスクを約束している。
解答の正しさを判断する能力は、大言語モデル(LLM)と比較しても明らかでない。
論文 参考訳(メタデータ) (2025-11-20T01:14:39Z) - Topic-Specific Classifiers are Better Relevance Judges than Prompted LLMs [34.14678608130442]
未判断の文書問題は、情報検索におけるテストコレクションの再利用可能性にとって重要な障害である。
個別のLoRA重み適応でMonoT5を微調整することにより、トピック固有の関連分類器を訓練する。
トピックごとの最初の128の判断は、モデルの互換性を改善するのに十分である。
論文 参考訳(メタデータ) (2025-10-06T09:38:13Z) - Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.92020689188887]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。
既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。
本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T04:50:43Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - FineSurE: Fine-grained Summarization Evaluation using LLMs [22.62504593575933]
FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。
また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
論文 参考訳(メタデータ) (2024-07-01T02:20:28Z) - Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文 参考訳(メタデータ) (2023-06-09T05:55:52Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。