Fugu-MT 論文翻訳(概要): BenchMarker: An Education-Inspired Toolkit for Highlighting Flaws in Multiple-Choice Benchmarks

論文の概要: BenchMarker: An Education-Inspired Toolkit for Highlighting Flaws in Multiple-Choice Benchmarks

arxiv url: http://arxiv.org/abs/2602.06221v1
Date: Thu, 05 Feb 2026 21:57:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.125202
Title: BenchMarker: An Education-Inspired Toolkit for Highlighting Flaws in Multiple-Choice Benchmarks
Title（参考訳）: BenchMarker: 複数項目のベンチマークで欠陥をハイライトする教育用ツールキット
Authors: Nishant Balepur, Bhavya Rajasekaran, Jane Oh, Michael Xie, Atrey Desai, Vipul Gupta, Steven James Moore, Eunsol Choi, Rachel Rudinger, Jordan Lee Boyd-Graber,
Abstract要約: マルチチョイス質問応答(MCQA)はNLPでは標準であるが、ベンチマークには厳格な品質管理がない。本稿では,LLM判定器を用いた教育用ツールキットであるBenchMarkerを紹介し,3つの共通MCQ欠陥をフラグする。
参考スコア（独自算出の注目度）: 46.27632986702819
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multiple-choice question answering (MCQA) is standard in NLP, but benchmarks lack rigorous quality control. We present BenchMarker, an education-inspired toolkit using LLM judges to flag three common MCQ flaws: 1) contamination - items appearing exactly online; 2) shortcuts - cues in the choices that enable guessing; and 3) writing errors - structural/grammatical issues based on a 19-rule education rubric. We validate BenchMarker with human annotations, then run the tool to audit 12 benchmarks, revealing: 2) contaminated MCQs tend to inflate accuracy, while writing errors tend to lower it and change rankings beyond random; and 3) prior benchmark repairs address their targeted issues (i.e., lowering accuracy with LLM-written distractors), but inadvertently add new flaws (i.e. implausible distractors, many correct answers). Overall, flaws in MCQs degrade NLP evaluation, but education research offers a path forward. We release BenchMarker to bridge the fields and improve MCQA benchmark design.
Abstract（参考訳）: マルチチョイス質問応答(MCQA)はNLPでは標準であるが、ベンチマークには厳格な品質管理がない。 MCQの一般的な欠陥を3つフラグするLLMジャッジを用いた教育用ツールキットであるBenchMarkerを紹介します。 1) 汚染 - 正確にオンラインに現れるもの 2)ショートカット - 推測を可能にする選択の手がかり。 3) 誤りの書き方 - 19ルールの教育要領に基づく構造的・文法的問題。 BenchMarkerを人間のアノテーションで検証し、ツールを実行して12のベンチマークを監査します。 2)汚染されたMCQは精度を低下させる傾向があり、一方、筆記ミスはそれを低下させ、乱数を超えてランクを変更する傾向にある。 3) 事前のベンチマーク修正は、目標とする問題(すなわち、LSMで書き起こされた割り込み器の精度を低下させる)に対処するが、必然的に新しい欠陥(すなわち、不可解な割り込み器、多くの正しい答え)を付け加える。全体として、MCQの欠陥はNLP評価を低下させるが、教育研究は先進的な道筋を提供する。フィールドをブリッジし、MCQAベンチマーク設計を改善するため、BenchMarkerをリリースします。

論文の概要: BenchMarker: An Education-Inspired Toolkit for Highlighting Flaws in Multiple-Choice Benchmarks

関連論文リスト