論文の概要: JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation
- arxiv url: http://arxiv.org/abs/2511.15958v1
- Date: Thu, 20 Nov 2025 01:14:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.412489
- Title: JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation
- Title(参考訳): judgeBoard: 推論評価のための小さな言語モデルのベンチマークと強化
- Authors: Zhenyu Bi, Gaurav Srivastava, Yang Li, Meng Lu, Swastik Roy, Morteza Ziyadi, Xuan Wang,
- Abstract要約: 小型言語モデル(SLM)は様々な推論タスクを約束している。
解答の正しさを判断する能力は、大言語モデル(LLM)と比較しても明らかでない。
- 参考スコア(独自算出の注目度): 13.831735556002426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While small language models (SLMs) have shown promise on various reasoning tasks, their ability to judge the correctness of answers remains unclear compared to large language models (LLMs). Prior work on LLM-as-a-judge frameworks typically relies on comparing candidate answers against ground-truth labels or other candidate answers using predefined metrics like entailment. However, this approach is inherently indirect and difficult to fully automate, offering limited support for fine-grained and scalable evaluation of reasoning outputs. In this work, we propose JudgeBoard, a novel evaluation pipeline that directly queries models to assess the correctness of candidate answers without requiring extra answer comparisons. We focus on two core reasoning domains: mathematical reasoning and science/commonsense reasoning, and construct task-specific evaluation leaderboards using both accuracy-based ranking and an Elo-based rating system across five benchmark datasets, enabling consistent model comparison as judges rather than comparators. To improve judgment performance in lightweight models, we propose MAJ (Multi-Agent Judging), a novel multi-agent evaluation framework that leverages multiple interacting SLMs with distinct reasoning profiles to approximate LLM-level judgment accuracy through collaborative deliberation. Experimental results reveal a significant performance gap between SLMs and LLMs in isolated judging tasks. However, our MAJ framework substantially improves the reliability and consistency of SLMs. On the MATH dataset, MAJ using smaller-sized models as backbones performs comparatively well or even better than their larger-sized counterparts. Our findings highlight that multi-agent SLM systems can potentially match or exceed LLM performance in judgment tasks, with implications for scalable and efficient assessment.
- Abstract(参考訳): 小型言語モデル (SLM) は様々な推論タスクにおいて有望であるが, 答えの正しさを判断する能力は, 大規模言語モデル (LLM) と比較して不明確である。
LLM-as-a-judgeフレームワークに関する以前の研究は、典型的には、暗黙のラベルや他の候補の回答と、エンテーメントのような事前に定義されたメトリクスを使って、候補の回答を比較することに依存しています。
しかし、このアプローチは本質的に間接的であり、完全に自動化することは困難であり、推論出力の細粒度でスケーラブルな評価を限定的にサポートする。
本研究では,新たな評価パイプラインであるJiceBoardを提案する。このパイプラインは,モデルを直接クエリして候補回答の正しさを,余分な回答比較を必要とせず直接的に評価する。
数学的推論と科学/常識推論という2つの中核的推論領域に注目し、精度に基づくランキングと5つのベンチマークデータセットにわたるEloベースのレーティングシステムの両方を用いてタスク固有の評価リーダーボードを構築し、コンパレータではなく、審査員として一貫したモデル比較を可能にする。
軽量モデルにおける判定性能を向上させるために,複数対話型SLMを異なる推論プロファイルで活用し,協調的な検討を通じてLLMレベルの判定精度を近似する,新しいマルチエージェント評価フレームワークMAJ(Multi-Agent Judging)を提案する。
実験結果から,SLM と LLM の独立判定における性能差が顕著であった。
しかし,我々のMAJフレームワークは,SLMの信頼性と一貫性を大幅に向上させる。
MATHデータセットでは、バックボーンとして小さなモデルを使用するMAJは、より大きなモデルよりも比較的良好またはそれ以上に機能する。
本研究は,マルチエージェントSLMシステムにおいて,評価タスクのLLM性能に適合あるいは超過する可能性があり,スケーラブルで効率的な評価が可能であることが示唆された。
関連論文リスト
- CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。
LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文 参考訳(メタデータ) (2025-07-14T17:56:29Z) - Evaluating Scoring Bias in LLM-as-a-Judge [8.67484421243584]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。
LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-06-27T15:25:23Z) - Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。
モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。
実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - Efficient Evaluation of Large Language Models via Collaborative Filtering [25.734508624520164]
大規模言語モデル(LLM)は、異なるLLMの能力を測定し比較するために提案されている。
LLMの評価は、多数のテストインスタンスと遅い推論速度のためにコストがかかる。
与えられたベンチマーク上でモデルの実性能を効率的に推定する2段階手法を提案する。
論文 参考訳(メタデータ) (2025-04-05T07:46:30Z) - Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.92020689188887]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。
既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。
本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T04:50:43Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks [11.01213914485374]
数学的推論タスクにおいて,大規模言語モデル (LLM) について検討する。
本分析により,判定性能と候補モデルタスク性能との間に強い相関関係が明らかになった。
その結果、音声の一部タグのような単純な特徴を用いて、LLM判断者の行動を予測することができるかどうかを検証した。
論文 参考訳(メタデータ) (2024-09-06T10:09:41Z) - Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.948519516797745]
LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。
以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。