論文の概要: BenchMarker: An Education-Inspired Toolkit for Highlighting Flaws in Multiple-Choice Benchmarks
- arxiv url: http://arxiv.org/abs/2602.06221v1
- Date: Thu, 05 Feb 2026 21:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.125202
- Title: BenchMarker: An Education-Inspired Toolkit for Highlighting Flaws in Multiple-Choice Benchmarks
- Title(参考訳): BenchMarker: 複数項目のベンチマークで欠陥をハイライトする教育用ツールキット
- Authors: Nishant Balepur, Bhavya Rajasekaran, Jane Oh, Michael Xie, Atrey Desai, Vipul Gupta, Steven James Moore, Eunsol Choi, Rachel Rudinger, Jordan Lee Boyd-Graber,
- Abstract要約: マルチチョイス質問応答(MCQA)はNLPでは標準であるが、ベンチマークには厳格な品質管理がない。
本稿では,LLM判定器を用いた教育用ツールキットであるBenchMarkerを紹介し,3つの共通MCQ欠陥をフラグする。
- 参考スコア(独自算出の注目度): 46.27632986702819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple-choice question answering (MCQA) is standard in NLP, but benchmarks lack rigorous quality control. We present BenchMarker, an education-inspired toolkit using LLM judges to flag three common MCQ flaws: 1) contamination - items appearing exactly online; 2) shortcuts - cues in the choices that enable guessing; and 3) writing errors - structural/grammatical issues based on a 19-rule education rubric. We validate BenchMarker with human annotations, then run the tool to audit 12 benchmarks, revealing: 2) contaminated MCQs tend to inflate accuracy, while writing errors tend to lower it and change rankings beyond random; and 3) prior benchmark repairs address their targeted issues (i.e., lowering accuracy with LLM-written distractors), but inadvertently add new flaws (i.e. implausible distractors, many correct answers). Overall, flaws in MCQs degrade NLP evaluation, but education research offers a path forward. We release BenchMarker to bridge the fields and improve MCQA benchmark design.
- Abstract(参考訳): マルチチョイス質問応答(MCQA)はNLPでは標準であるが、ベンチマークには厳格な品質管理がない。
MCQの一般的な欠陥を3つフラグするLLMジャッジを用いた教育用ツールキットであるBenchMarkerを紹介します。
1) 汚染 - 正確にオンラインに現れるもの
2)ショートカット - 推測を可能にする選択の手がかり。
3) 誤りの書き方 - 19ルールの教育要領に基づく構造的・文法的問題。
BenchMarkerを人間のアノテーションで検証し、ツールを実行して12のベンチマークを監査します。
2)汚染されたMCQは精度を低下させる傾向があり、一方、筆記ミスはそれを低下させ、乱数を超えてランクを変更する傾向にある。
3) 事前のベンチマーク修正は、目標とする問題(すなわち、LSMで書き起こされた割り込み器の精度を低下させる)に対処するが、必然的に新しい欠陥(すなわち、不可解な割り込み器、多くの正しい答え)を付け加える。
全体として、MCQの欠陥はNLP評価を低下させるが、教育研究は先進的な道筋を提供する。
フィールドをブリッジし、MCQAベンチマーク設計を改善するため、BenchMarkerをリリースします。
関連論文リスト
- Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above [14.5781090243416]
複数の選択質問応答(MCQA)は、単純さと人間らしいテストのため、LCMの評価に人気がある。
1) テスト生成/サブジェクティビティ,2) LLM のユースケースにマッチする,3) 完全なテスト知識。
我々は,人間のテストに基づく生成形式を提唱し,LCMが回答を構築・説明し,ユーザニーズや知識をよりよく把握し,評価しやすくする。
論文 参考訳(メタデータ) (2025-02-19T22:11:52Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - LiveBench: A Challenging, Contamination-Limited LLM Benchmark [93.57775429120488]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから405Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新され、時間とともに新しいタスクとより難しいタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。
課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。
質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文 参考訳(メタデータ) (2024-03-26T14:43:48Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。