論文の概要: Benchmarks Saturate When The Model Gets Smarter Than The Judge
- arxiv url: http://arxiv.org/abs/2601.19532v1
- Date: Tue, 27 Jan 2026 12:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.312234
- Title: Benchmarks Saturate When The Model Gets Smarter Than The Judge
- Title(参考訳): モデルが審査員より賢くなったらベンチマークは飽和する
- Authors: Marthe Ballon, Andres Algaba, Brecht Verbeken, Vincent Ginis,
- Abstract要約: 我々は,Omni-MATHデータセットを手動で改訂したバージョンを提案する。
それぞれの問題は、コンパイル可能性、解決可能性、検証可能性を保証するために監査された。
我々は, GPT-5 mini とオリジナルの Omni-Judge を比較し, クリーンおよびタグ付けされた問題サブセットの双方において, 裁判官間の相当な相違を明らかにした。
- 参考スコア(独自算出の注目度): 4.599673637363014
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Benchmarks are important tools to track progress in the development of Large Language Models (LLMs), yet inaccuracies in datasets and evaluation methods consistently undermine their effectiveness. Here, we present Omni-MATH-2, a manually revised version of the Omni-MATH dataset comprising a clean, exact-answer subset ($n{=}4181$) and a tagged, non-standard subset ($n{=}247$). Each problem was audited to ensure LaTeX compilability, solvability and verifiability, which involved adding missing figures or information, labeling problems requiring a proof, estimation or image, and removing clutter. This process significantly reduces dataset-induced noise, thereby providing a more precise assessment of model performance. The annotated dataset also allows us to evaluate judge-induced noise by comparing GPT-5 mini with the original Omni-Judge, revealing substantial discrepancies between judges on both the clean and tagged problem subsets. Expert annotations reveal that Omni-Judge is wrong in $96.4\%$ of the judge disagreements, indicating its inability to differentiate between models' abilities, even well before saturation of the benchmark occurs. As problems become more challenging, we find that increasingly competent judges become essential in order to prevent judge errors from masking genuine differences between models. Finally, neither judge identifies the present failure modes for the subset of tagged problems, demonstrating that dataset quality and judge reliability are both critical to develop accurate benchmarks of model performance.
- Abstract(参考訳): ベンチマークは、LLM(Large Language Models)の開発の進捗を追跡する重要なツールである。
ここでは、Omni-MATH-2という、クリーンで正確な回答サブセット(n{=}4181$)とタグ付けされた非標準サブセット(n{=}247$)からなるOmni-MATHデータセットの手作業による改訂版を示す。
それぞれの問題は、LaTeXのコンパイル可能性、可解性、検証性を保証するために監査された。
このプロセスはデータセットによるノイズを大幅に低減し、モデル性能をより正確に評価する。
また, GPT-5 mini と Omni-Judge を比較することで, 判定によるノイズを評価できることを示す。
専門家の注釈は、Omni-Judgeが9.6.4 %の差で間違っていることを示しており、ベンチマークの飽和前であっても、モデルの能力の区別ができないことを示している。
問題がより困難になるにつれて、判断エラーがモデル間の真の違いを隠蔽するのを防ぐために、ますます有能な判断が不可欠であることが分かっています。
最後に、どちらの裁判官もタグ付けされた問題のサブセットの現在の障害モードを特定しておらず、データセットの品質と判断信頼性の両方がモデルパフォーマンスの正確なベンチマークを開発する上で重要であることを示した。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Label Convergence: Defining an Upper Performance Bound in Object Recognition through Contradictory Annotations [0.0]
矛盾するテストアノテーションの制約の下で達成可能な最高性能を記述するために,「ラベル収束」の概念を導入する。
ラベル収束は LVIS の場合 62.63-67.52 mAP@[0.5:0.95:0.05] であり、95% の信頼度を持つ。
LVISデータセットのラベル収束間隔の上端にある現在の最先端(SOTA)モデルでは、モデルキャパシティが現在のオブジェクト検出問題を解決するのに十分である、と結論付けている。
論文 参考訳(メタデータ) (2024-09-14T10:59:25Z) - Systematic analysis of the impact of label noise correction on ML
Fairness [0.0]
偏りのあるデータセットで学習したモデルの公平性を確保するため,ラベルノイズ補正手法の有効性を実証的に評価する手法を開発した。
その結果,ハイブリッドラベル雑音補正法は,予測性能と公平性との最良のトレードオフを実現することが示唆された。
論文 参考訳(メタデータ) (2023-06-28T08:08:14Z) - Intrinsic Self-Supervision for Data Quality Audits [35.69673085324971]
コンピュータビジョンにおけるベンチマークデータセットは、しばしば、オフトピック画像、ほぼ重複、ラベルエラーを含む。
本稿では,データクリーニングの課題を再考し,ランキング問題やスコアリング問題として定式化する。
文脈認識型自己教師型表現学習と距離に基づく指標の組み合わせは, 適応バイアスのない問題発見に有効であることがわかった。
論文 参考訳(メタデータ) (2023-05-26T15:57:04Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。