Fugu-MT 論文翻訳(概要): Auditing LLM Benchmarks with Item Response Theory

論文の概要: Auditing LLM Benchmarks with Item Response Theory

arxiv url: http://arxiv.org/abs/2605.30504v1
Date: Thu, 28 May 2026 19:38:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-01 20:56:50.196954
Title: Auditing LLM Benchmarks with Item Response Theory
Title（参考訳）: LLMベンチマークの項目応答理論による評価
Authors: Sander Land, Daniel M. Bikel,
Abstract要約: LLMベンチマークラベルはリリース時に凍結され、ダウンストリームベンチマークやエラーなどすべてに静かに伝播する。項目応答理論に基づくインジケータを導入し、上位200の例で95%の精度で誤ラベルをサーフェスする。我々はこれらの誤りを、機械的なラベル付け、ソースデータセットから受け継がれていない上流のアノテーションの誤り、および基本的には修正可能なシングルラベルのない曖昧な項目まで追跡する。
参考スコア（独自算出の注目度）: 1.1455131351238124
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: LLM benchmark labels are frozen at release and silently propagated into downstream benchmarks, errors and all. We introduce an Item Response Theory-based indicator that surfaces likely mislabels at 95% precision in the top 200 examples across seven preference and multiple-choice benchmarks using responses from 114 models, outperforming a supervised classifier. We trace these errors to mechanical labeling heuristics, upstream annotation mistakes inherited unchanged from source datasets, and fundamentally ambiguous items without a defensible single label. The same model fit reveals that reward models specialize in stylistic preference rather than factual knowledge, and identifies one frontier reward model that agrees with detected mislabels at 78% accuracy versus 38% for its peers, consistent with benchmark contamination or benchmark-specific over-optimization.
Abstract（参考訳）: LLMベンチマークラベルはリリース時に凍結され、ダウンストリームベンチマークやエラーなどすべてに静かに伝播する。項目応答理論に基づく指標は、7つの選好と114のモデルからの応答を用いて、上位200の例で95%の精度で誤ラベルを呈示し、教師付き分類器よりも優れている。我々はこれらの誤りを、機械的なラベル付けヒューリスティックス、ソースデータセットから受け継がれていない上流アノテーションの誤り、および基本的には修正可能なシングルラベルのない曖昧な項目まで追跡した。同じモデルが適合すると、報酬モデルは事実知識よりもスタイリスティックな選好を専門とし、検出されたミスラベルに78%の精度で一致する1つのフロンティア報酬モデルを特定する。

関連論文リスト

BenchBench: Benchmarking Automated Benchmark Generation [10.44497524694021]
BenchBenchは、自動ベンチマーク生成をベンチマークするためのパイプラインとデータセットである。我々は16.7Kアイテムを生成し、15Kコアアイテムをポストフィルタに保持し、152Kグレードのモデル-イテム応答を生成する。
論文参考訳（メタデータ） (2026-03-21T13:05:32Z)
Adaptive Testing for LLM Evaluation: A Psychometric Alternative to Static Benchmarks [26.89839484242575]
ATLASは大規模言語モデルの適応テストフレームワークである。フィッシャー情報誘導項目選択によるモデル能力の推定を行う。測定精度を維持しながら90%の項目削減を実現している。
論文参考訳（メタデータ） (2025-10-26T03:54:12Z)
Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures [87.75098311090642]
現在の選好学習法は、標準ベンチマークで高い精度を達成するが、客観的な品質信号を取り除いた場合、顕著な性能劣化を示す。我々は、8つのクリエイティブな著作ジャンルにまたがる1,800の人手による好みペア(1,200の英語、600の中国語)のデータセットであるWriteingPreferenceBenchを紹介した。
論文参考訳（メタデータ） (2025-10-16T12:23:13Z)
Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文参考訳（メタデータ） (2024-12-09T13:05:43Z)
Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。 12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文参考訳（メタデータ） (2024-11-05T01:11:28Z)
Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance [28.524573212179124]
大きな言語モデル(LLM)は、アノテーションプロセスを強化する新しい機会を提供する。合意、ラベルの品質、効率の観点から、専門家、クラウドソース、LLMベースのアノテーションを比較します。以上の結果から,ラベルエラーがかなり多く,修正された場合,報告されたモデル性能が大幅に上向きに変化することが判明した。
論文参考訳（メタデータ） (2024-10-24T16:27:03Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
MARS: Model-agnostic Biased Object Removal without Additional Supervision for Weakly-Supervised Semantic Segmentation [3.997707534484444]
弱教師付きセマンティックセグメンテーションは、弱い監督力を用いたセマンティックセグメンテーションモデルを訓練することにより、ラベリングコストを削減することを目的としている。完全自動/モデル非依存のオブジェクト除去フレームワークMARSを提案する。以上の結果から,MARS は様々な WSSS モデルの性能を少なくとも30% 改善する。
論文参考訳（メタデータ） (2023-04-19T18:24:28Z)
Dist-PU: Positive-Unlabeled Learning from a Label Distribution Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。提案手法の有効性を3つのベンチマークデータセットで検証した。
論文参考訳（メタデータ） (2022-12-06T07:38:29Z)
Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文参考訳（メタデータ） (2022-05-25T15:26:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。