論文の概要: PATCH! Psychometrics-AssisTed benCHmarking of Large Language Models: A Case Study of Proficiency in 8th Grade Mathematics
- arxiv url: http://arxiv.org/abs/2404.01799v2
- Date: Thu, 25 Jul 2024 13:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 19:17:05.123707
- Title: PATCH! Psychometrics-AssisTed benCHmarking of Large Language Models: A Case Study of Proficiency in 8th Grade Mathematics
- Title(参考訳): PATCH!心理学的分析による大規模言語モデルのベンチマーク:8年生数学の習熟度を事例として
- Authors: Qixiang Fang, Daniel L. Oberski, Dong Nguyen,
- Abstract要約: 本稿では,LLMの心理学的アシステッドベンチマーキングのための新しい枠組みを提案する。
我々は, GPT-4 と Gemini-Pro-Vision の習熟度を, 56 人の集団に対して 8 年生数学で測定した。
心理測定に基づくアプローチを採用すると、既存の実践に基づいて異なる評価結果が得られることを示す。
- 参考スコア(独自算出の注目度): 3.9362370389588834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many existing benchmarks of large (multimodal) language models (LLMs) focus on measuring LLMs' academic proficiency, often with also an interest in comparing model performance with human test takers. While these benchmarks have proven key to the development of LLMs, they suffer from several limitations, including questionable measurement quality (e.g., Do they measure what they are supposed to in a reliable way?), lack of quality assessment on the item level (e.g., Are some items more important or difficult than others?) and unclear human population reference (e.g., To whom can the model be compared?). In response to these challenges, we propose leveraging knowledge from psychometrics - a field dedicated to the measurement of latent variables like academic proficiency - into LLM benchmarking. We make three primary contributions. First, we introduce PATCH: a novel framework for {P}sychometrics-{A}ssis{T}ed ben{CH}marking of LLMs. PATCH addresses the aforementioned limitations, presenting a new direction for LLM benchmark research. Second, we implement PATCH by measuring GPT-4 and Gemini-Pro-Vision's proficiency in 8th grade mathematics against 56 human populations. We show that adopting a psychometrics-based approach yields evaluation outcomes that diverge from those based on existing benchmarking practices. Third, we release 4 high-quality datasets to support measuring and comparing LLM proficiency in grade school mathematics and science against human populations.
- Abstract(参考訳): 大規模(マルチモーダル)言語モデル(LLM)の既存のベンチマークの多くは、LLMの学術的習熟度の測定に重点を置いており、多くの場合、モデルパフォーマンスと人間のテストテイカーの比較にも関心がある。
これらのベンチマークはLSMの開発に鍵があることが証明されているが、疑わしい測定品質(例えば、信頼できる方法で何を計測するのか?)、アイテムレベルの品質評価の欠如(例えば、他のものよりも重要か難しいか?)、不明瞭な人口基準(例えば、モデルを比較できるのか?
これらの課題に対応するため,学術的習熟度などの潜伏変数の測定を専門とする心理測定学の知識をLLMベンチマークに活用することを提案する。
主な貢献は3つある。
まず, LLMのPychometrics-{A}ssis{T}ed ben{CH}markingのための新しいフレームワークであるPATCHを紹介する。
PATCHは上記の制限に対処し、LLMベンチマーク研究の新しい方向性を示す。
第2に,第8級数学における GPT-4 と Gemini-Pro-Vision の習熟度を56人に対して測定し,PATCH を実装した。
心理測定に基づくアプローチを採用すると、既存のベンチマークプラクティスに基づく評価結果と異なる評価結果が得られることを示す。
第3に,小学校数学・理科におけるLLM習熟度の測定と比較を支援するための,高品質な4つのデータセットをリリースする。
関連論文リスト
- Towards Reasoning Ability of Small Language Models [3.732224317444325]
我々は,小言語モデル (SLM) が競争力のある推論性能を実現できることを示す。
14の推論ベンチマークで6つのモデルファミリーから72のSLMを体系的に調査し、ベンチマークし、分析した。
我々の発見は、スケーリングが強力な推論を達成する唯一の方法である、という仮定に挑戦する。
論文 参考訳(メタデータ) (2025-02-17T08:59:16Z) - Humanity's Last Exam [253.45228996132735]
HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。
数学、人文科学、自然科学など、数十の科目にわたる3000の質問で構成されている。
各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
論文 参考訳(メタデータ) (2025-01-24T05:27:46Z) - MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。
我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-07T02:30:07Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Are Large Language Models Good Statisticians? [10.42853117200315]
StatQAは統計解析タスク用に設計された新しいベンチマークである。
GPT-4oのような最先端モデルでさえ、64.83%の最高の性能を実現していることを示す。
オープンソースのLLMは限られた能力を示すが、細調整されたものは顕著に改善されている。
論文 参考訳(メタデータ) (2024-06-12T02:23:51Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [46.949604465227054]
そこで我々は,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。
MAD は2つの LLM に適応した情報的かつ多様な命令群を自動的に選択する。
ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large
Language Models with SocKET Benchmark [14.922083834969323]
大規模言語モデル(LLM)は、様々な構文、談話、推論タスクでうまく機能することが示されている。
我々は、社会知識をテストする58のNLPタスクを含む理論駆動型ベンチマーク「SocKET」を導入する。
論文 参考訳(メタデータ) (2023-05-24T09:21:06Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。