論文の概要: SEAL: Can Saturated Benchmarks Be Revived by LLM-as-a-Meta-Judge?
- arxiv url: http://arxiv.org/abs/2605.30104v1
- Date: Thu, 28 May 2026 15:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.445109
- Title: SEAL: Can Saturated Benchmarks Be Revived by LLM-as-a-Meta-Judge?
- Title(参考訳): SEAL: LLM-as-a-Meta-JudgeによってSaturated Benchmarkが復活できるか?
- Authors: Jiamin Chen, Yidi Wu, Qiexiang Wang, Qianben Chen, Yuchen Li, Yansen Zhang, Xiaokun Zhang, Wangchunshu Zhou, Chen Ma,
- Abstract要約: SEALは飽和ベンチマークから遅延ランキング信号を抽出するための自己改善評価プロトコルである。
我々は、コード生成、数学的推論、知識集約型質問応答、ツール使用エージェントタスク完了を含む複数の飽和ベンチマーク上でSEALを評価する。
- 参考スコア(独自算出の注目度): 26.684941358964704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Widely used language-model benchmarks are increasingly saturated, with frontier systems often receiving near-tied scores that standard metrics cannot resolve. Rather than constructing harder alternatives, we ask whether existing tasks can be made informative again through improved evaluation over the same candidate outputs. Therefore, we present Seeded Elimination with Adaptive LLM-as-a-Meta-Judge, a self-improving evaluation protocol for extracting latent ranking signal from saturated benchmarks. SEAL seeds candidate outputs into a single elimination and evaluates each match with task-level principles plus self-improving checklist criteria. We evaluate SEAL on multiple saturated benchmarks covering code generation, mathematical reasoning, knowledge-intensive question answering, and tool-use agent task completion. Across these settings, SEAL improves the ranking-accuracy--latency trade-off over competing protocols, attaining 0.83--1.00 Spearman agreement with full pairwise judging and 4/4 top-1 agreement, while requiring only 11.89 calls per task compared with 28.00 for full pairwise evaluation.
- Abstract(参考訳): 広く使われている言語モデルベンチマークは飽和度が増しており、フロンティアシステムは標準のメトリクスでは解決できない近いスコアを受け取ることが多い。
より難しい代替案を構築するのではなく、同じ候補出力に対する評価を改善することで、既存のタスクを再び情報化できるかどうかを問う。
そこで我々は,飽和ベンチマークから遅延ランキング信号を抽出する自己改善評価プロトコルである適応LDM-as-a-Meta-Judgeを用いたシード除去を提案する。
SEALシード候補は1つの除去に出力し、各マッチをタスクレベルの原則と自己改善チェックリストの基準で評価する。
我々は、コード生成、数学的推論、知識集約型質問応答、ツール使用エージェントタスク完了を含む複数の飽和ベンチマーク上でSEALを評価する。
これらの設定全体において、SEALは競合プロトコルに対するランク-精度-レイテンシのトレードオフを改善し、完全なペアワイズ判定と4/4のトップ-1合意で0.83--1.00のスピアマン契約を達成し、完全なペアワイズ評価では28.00に比べてタスク当たり11.89コールしか必要としない。
関連論文リスト
- Low Rank for Rank: Uncertainty-Aware Task-Specific LLM Ranking under Sparse Pairwise Comparisons [16.73008463123115]
低ランク共有は、独立したタスクワイドBradley-Terry推定よりもサンプリング効率を向上させる。
合成データとアリーナの実験により、低ランクの共有は独立したタスクワイドBradley-Terry推定よりもサンプリング効率を向上させることが示された。
論文 参考訳(メタデータ) (2026-05-28T05:44:43Z) - Benchmarking at the Edge of Comprehension [38.43582342860192]
ベンチマークが実現不可能になった場合、AIの進歩を計測する能力が重要になります。
完全人間の理解が不可能な場合でも,モデルを比較するために設計された対戦型フレームワークであるCrytique-Resilient Benchmarkingを提案する。
標準的なベンチマークとは異なり、人間は有界検証として機能し、ローカライズされたクレームにフォーカスする。
論文 参考訳(メタデータ) (2026-02-15T20:51:29Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - An LLM-as-Judge Metric for Bridging the Gap with Human Evaluation in SE Tasks [15.820416019287622]
SE-JuryはLLM-as-Ensemble-Judgeの最初の評価基準である。
さまざまなソフトウェアエンジニアリング(SE)ベンチマークでSE-Juryを評価します。
論文 参考訳(メタデータ) (2025-05-27T08:04:34Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。