Fugu-MT 論文翻訳(概要): Efficient Detection of Bad Benchmark Items with Novel Scalability Coefficients

論文の概要: Efficient Detection of Bad Benchmark Items with Novel Scalability Coefficients

arxiv url: http://arxiv.org/abs/2603.24999v2
Date: Fri, 27 Mar 2026 16:02:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-30 21:49:48.162059
Title: Efficient Detection of Bad Benchmark Items with Novel Scalability Coefficients
Title（参考訳）: 新たな拡張性係数をもつバッドベンチマーク項目の効率的な検出
Authors: Michael Hardy, Joshua Gilbert, Benjamin Domingue,
Abstract要約: 異方性回帰に基づく非パラメトリックな拡張係数の新たなファミリを導入する。中心的な寄与は符号付きイソトニック$R2$であり、これは説明可能な1つの項目における分散の最大比率を測定する。符号付き等方性$R2$は単調予測器の中で極端であることを示す。
参考スコア（独自算出の注目度）: 3.058685580689604
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The validity of assessments, from large-scale AI benchmarks to human classrooms, depends on the quality of individual items, yet modern evaluation instruments often contain thousands of items with minimal psychometric vetting. We introduce a new family of nonparametric scalability coefficients based on interitem isotonic regression for efficiently detecting globally bad items (e.g., miskeyed, ambiguously worded, or construct-misaligned). The central contribution is the signed isotonic $R^2$, which measures the maximal proportion of variance in one item explainable by a monotone function of another while preserving the direction of association via Kendall's $τ$. Aggregating these pairwise coefficients yields item-level scores that sharply separate problematic items from acceptable ones without assuming linearity or committing to a parametric item response model. We show that the signed isotonic $R^2$ is extremal among monotone predictors (it extracts the strongest possible monotone signal between any two items) and show that this optimality property translates directly into practical screening power. Across three AI benchmark datasets (HS Math, GSM8K, MMLU) and two human assessment datasets, the signed isotonic $R^2$ consistently achieves top-tier AUC for ranking bad items above good ones, outperforming or matching a comprehensive battery of classical test theory, item response theory, and dimensionality-based diagnostics. Crucially, the method remains robust under the small-n/large-p conditions typical of AI evaluation, requires only bivariate monotone fits computable in seconds, and handles mixed item types (binary, ordinal, continuous) without modification. It is a lightweight, model-agnostic filter that can materially reduce the reviewer effort needed to find flawed items in modern large-scale evaluation regimes.
Abstract（参考訳）: 大規模なAIベンチマークから人間の教室まで、評価の妥当性は個々の項目の品質に依存している。本稿では,グローバルな悪い項目(例えば,誤ったキーワード,曖昧な言葉,構成ミスアライメント)を効率的に検出する,中間等調回帰に基づく新しい非パラメトリックな拡張係数の族を導入する。中心的な寄与は符号付き等方性$R^2$であり、これはケンドールの$τ$を通して関連の方向を保ちながら、別の単調関数によって説明できるある項目における分散の最大比を測るものである。これらのペア係数を集約すると、線形性を仮定したりパラメトリックなアイテム応答モデルにコミットしたりすることなく、問題のあるアイテムを許容できるものから鋭く分離するアイテムレベルスコアが得られる。符号付き等方性$R^2$はモノトーン予測器の中で極端であることが示され(任意の2つの項目間で最強のモノトーン信号を取り出す)、この最適性が実際のスクリーニング能力に直接変換されることを示す。 3つのAIベンチマークデータセット(HS Math, GSM8K, MMLU)と2つの人間評価データセットの合計で、署名付きアイソトニック$R^2$は、良質な項目よりも上位の項目をランク付けし、古典的なテスト理論、アイテム応答理論、次元に基づく診断の総合的バッテリをパフォーマンスまたは整合するトップレベルAUCを一貫して達成する。重要なことに、この方法はAI評価に典型的な小さなn/large-p条件下では頑健であり、二変量モノトンのみを計算可能とし、修正することなく混合アイテムタイプ(バイナリ、順序、連続)を扱う。これは軽量でモデルに依存しないフィルタであり、現代の大規模評価体制において欠陥のある項目を見つけるのに必要なレビュアーの労力を大幅に削減することができる。

関連論文リスト

Almost Asymptotically Optimal Active Clustering Through Pairwise Observations [59.20614082241528]
そこで本研究では, ノイズと能動的に収集された応答を用いて, M$アイテムを未知数の$K$個別グループにクラスタリングするための新しい分析フレームワークを提案する。クラスタリングの精度に対する望ましい信頼性を達成するのに必要なクエリ数の基本的下位境界を確立する。我々は、一般化された同値比統計の計算可能な変種を開発し、その下限に対する性能ギャップを正確に推定できることを実証的に示す。
論文参考訳（メタデータ） (2026-02-05T14:16:47Z)
RANSAC Scoring Functions: Analysis and Reality Check [0.0]
我々は,候補となる幾何モデルにスコア(適合の質)を割り当てることの問題を再考する。しきい値に基づくパラメータ化は、確率ベースでロバストなM推定器の統一的なビューにつながることを示す。
論文参考訳（メタデータ） (2025-12-22T20:08:46Z)
Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文参考訳（メタデータ） (2025-09-29T12:15:52Z)
Forest vs Tree: The $(N, K)$ Trade-off in Reproducible ML Evaluation [5.506095201822833]
信頼性の高い機械学習評価に必要なアイテム数(N$)とアイテムあたりのレスポンス数(K$)のトレードオフについて検討する。人間の不一致の原因は、少なくとも1つのメトリクスでテストされたデータセットに対して、1000ドル以下で、N倍のK$が伴う可能性がある。
論文参考訳（メタデータ） (2025-08-05T17:18:34Z)
What should an AI assessor optimise for? [57.96463917842822]
AIアセスタ(AI Assessmentor)は、他のAIシステムの指標(損失値など)を予測する、外的、理想的には不適切なシステムである。ここでは、問題に対処する: 常にターゲットメトリックのアセスメントをトレーニングするのが最適か? 本研究では, モノトニック写像と非モノトニック写像を用いた回帰損失と分類スコアについて実験的に検討した。
論文参考訳（メタデータ） (2025-02-01T08:41:57Z)
How Many Ratings per Item are Necessary for Reliable Significance Testing? [7.422152765037947]
機械学習評価の基盤は、モデルと人間の反応が一元的、権威的、金標準のデータに対するモデルを評価するのに十分な信頼性を持つという仮定である。我々は、(既存のまたは計画された)データセットが、信頼できるヌル仮説の統計的テストを保証するのに十分な応答を持っているかどうかを判断するために、メソッドを適用する。我々の手法は、AI研究者がAI評価のためのデータ収集方法に関するより良い決定を下すのにどのように役立つかを示す。
論文参考訳（メタデータ） (2024-12-04T02:31:28Z)
SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文参考訳（メタデータ） (2024-11-14T17:53:35Z)
SUnAA: Sparse Unmixing using Archetypal Analysis [62.997667081978825]
本稿では, 古細菌スパルス解析(SUnAA)を用いた新しい地質学的エラーマップ手法を提案する。まず,古細菌スパース解析(SunAA)に基づく新しいモデルの設計を行う。
論文参考訳（メタデータ） (2023-08-09T07:58:33Z)
BUMP: A Benchmark of Unfaithful Minimal Pairs for Meta-Evaluation of Faithfulness Metrics [70.52570641514146]
不誠実な最小対 (BUMP) のベンチマークを示す。 BUMPは、889人の人間が書いた最小限のサマリーペアのデータセットである。非ペアベースのデータセットとは異なり、BUMPはメトリクスの一貫性を測定するために使用することができる。
論文参考訳（メタデータ） (2022-12-20T02:17:30Z)
Deletion and Insertion Tests in Regression Models [1.2891210250935148]
説明可能なAI(XAI)の基本課題は、ブラックボックス関数$f$による予測の背後にある最も重要な特徴を特定することである。 Petsiuk et al. Kernel の挿入と削除テストは、分類においてピクセルを最も重要視するアルゴリズムの品質を判断するために用いられる。
論文参考訳（メタデータ） (2022-05-25T00:55:47Z)
Sparse network asymptotics for logistic regression [0.0]
ロジスティック回帰の漸近正規性は三角配列に対する Martingale Central limit theorem (CLT) を用いて示される。スパースネットワークは、サンプリング変動のさらなる源を含むばらつきを示唆し、(ii) はダイアディック依存の度合いで有効であるので、より良い推論をもたらす可能性がある。
論文参考訳（メタデータ） (2020-10-09T17:46:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。