論文の概要: Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above
- arxiv url: http://arxiv.org/abs/2502.14127v1
- Date: Wed, 19 Feb 2025 22:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:20.293779
- Title: Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above
- Title(参考訳): A) 強制B(Flawed C) 固定可能なD(A) 固定可能なD)
- Authors: Nishant Balepur, Rachel Rudinger, Jordan Lee Boyd-Graber,
- Abstract要約: 複数の選択質問応答(MCQA)は、単純さと人間らしいテストのため、LCMの評価に人気がある。
1) テスト生成/サブジェクティビティ,2) LLM のユースケースにマッチする,3) 完全なテスト知識。
- 参考スコア(独自算出の注目度): 14.5781090243416
- License:
- Abstract: Multiple choice question answering (MCQA) is popular for LLM evaluation due to its simplicity and human-like testing, but we argue for its reform. We first reveal flaws in MCQA's format, as it struggles to: 1) test generation/subjectivity; 2) match LLM use cases; and 3) fully test knowledge. We instead advocate for generative formats based on human testing-where LLMs construct and explain answers-better capturing user needs and knowledge while remaining easy to score. We then show even when MCQA is a useful format, its datasets suffer from: leakage; unanswerability; shortcuts; and saturation. In each issue, we give fixes from education, like rubrics to guide MCQ writing; scoring methods to bridle guessing; and Item Response Theory to build harder MCQs. Lastly, we discuss LLM errors in MCQA-robustness, biases, and unfaithful explanations-showing how our prior solutions better measure or address these issues. While we do not need to desert MCQA, we encourage more efforts in refining the task based on educational testing, advancing evaluations.
- Abstract(参考訳): 複数選択質問応答 (MCQA) は, 単純さと人為的なテストによりLCM評価に人気があるが, その改革について論じる。
私たちはまず、MCQAのフォーマットの欠陥を明らかにします。
1) 試験生成・サブジェクティビティ
2) LLM の使用例と一致し,
3) 完全なテスト知識。
代わりに、人間のテストに基づいた生成形式を提唱し、簡単なスコアを保ちながら、ユーザニーズと知識を抽出し、回答ベターに説明します。
そして、MCQAが有用なフォーマットである場合でも、そのデータセットはリーク、未解決性、ショートカット、飽和に悩まされる。
それぞれの問題において,我々は,MCQ作成をガイドするルーブリックや,推測を賄うための評価方法,より難しいMCQを構築するための項目応答理論などの教育上の修正を行う。
最後に、MCQA-robustness, biases, and unfaithful explanations における LLM エラーについて論じる。
MCQAを廃止する必要はないが、我々は、教育試験に基づくタスクの精査、評価の推進により多くの努力を払っている。
関連論文リスト
- Affordably Fine-tuned LLMs Provide Better Answers to Course-specific MCQs [0.9217021281095907]
我々は,大規模言語モデル (LLM) がハードウェア制約や改良技術に関して,マルチチョイス質問 (MCQ) にどのように答えるかを検討する。
我々は,プログラム言語(PL)コースから162人の学部レベルのMCQに回答するために,汎用的な事前学習 LLM を用いて,この空間を探索する。
論文 参考訳(メタデータ) (2025-01-10T11:44:35Z) - Reverse Question Answering: Can an LLM Write a Question so Hard (or Bad) that it Can't Answer? [24.614521528699093]
逆質問応答(RQA): 入力された回答に対して、その回答で質問を行う。
RQAエラーにつながる質問や回答の型を見つけることで、LLM推論の改善を提案する。
論文 参考訳(メタデータ) (2024-10-20T21:17:49Z) - Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。
LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文 参考訳(メタデータ) (2024-10-01T06:07:00Z) - Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena [23.264049073539663]
大規模言語モデル(LLM)を評価するために、MCQ(Multiple-choice Question)が頻繁に使用される。
LLMは、A/B/C/Dのような特定の解選択IDを本質的に好んでいるかもしれない。
本研究は,これらの課題に対処し,完全にオープンな質問を通じて新たなLCM評価ベンチマークを確立することを目的としている。
論文 参考訳(メタデータ) (2024-06-11T17:59:47Z) - Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。
課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。
質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文 参考訳(メタデータ) (2024-03-26T14:43:48Z) - Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question? [15.308093827770474]
大規模言語モデル(LLM)が選択のみのプロンプトで複数選択質問応答(MCQA)を実行できるかどうかを探索する。
このプロンプトは11/12ケースで過半数のベースラインを上回り、精度は0.33まで向上する。
我々は、暗記、選択力学、質問推論について、深いブラックボックス分析を行う。
論文 参考訳(メタデータ) (2024-02-19T19:38:58Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Won't Get Fooled Again: Answering Questions with False Premises [79.8761549830075]
プレトレーニング言語モデル(PLM)は、様々な分野で前例のない可能性を示している。
PLMは「太陽は何人の目を持っているのか?」といったトリッキーな質問によって容易に騙される傾向がある。
PLMはすでにそのような疑問に答えるために必要な知識を持っている。
論文 参考訳(メタデータ) (2023-07-05T16:09:21Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - Unsupervised Multiple Choices Question Answering: Start Learning from
Basic Knowledge [75.7135212362517]
我々は、ほとんど教師なしの多重選択質問回答(MCQA)の可能性について検討する。
提案手法は RACE のベースラインアプローチよりも優れており,MC500 の教師あり学習手法と同等である。
論文 参考訳(メタデータ) (2020-10-21T13:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。