論文の概要: Are LLMs Ready for English Standardized Tests? A Benchmarking and Elicitation Perspective
- arxiv url: http://arxiv.org/abs/2505.17056v1
- Date: Sat, 17 May 2025 05:10:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.507346
- Title: Are LLMs Ready for English Standardized Tests? A Benchmarking and Elicitation Perspective
- Title(参考訳): LLMは英語の標準テストの準備が整っているか?
- Authors: Luoxi Tang, Tharunya Sundar, Shuai Yang, Ankita Patra, Manohar Chippada, Giqi Zhao, Yi Li, Riteng Zhang, Tunan Zhao, Ting Yang, Yuqiao Meng, Weicheng Ma, Zhaohan Xi,
- Abstract要約: 大規模言語モデル(LLM)は、学習者が教育コンテンツとどのように相互作用するかに革命をもたらすと約束している。
英語標準テスト(EST)の多種多様なセットにまたがって、正確かつ文脈的に適切なソリューションを生成する能力を評価する。
- 参考スコア(独自算出の注目度): 13.167177024716338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI is transforming education by enabling powerful tools that enhance learning experiences. Among recent advancements, large language models (LLMs) hold particular promise for revolutionizing how learners interact with educational content. In this work, we investigate the potential of LLMs to support standardized test preparation by focusing on English Standardized Tests (ESTs). Specifically, we assess their ability to generate accurate and contextually appropriate solutions across a diverse set of EST question types. We introduce ESTBOOK, a comprehensive benchmark designed to evaluate the capabilities of LLMs in solving EST questions. ESTBOOK aggregates five widely recognized tests, encompassing 29 question types and over 10,576 questions across multiple modalities, including text, images, audio, tables, and mathematical symbols. Using ESTBOOK, we systematically evaluate both the accuracy and inference efficiency of LLMs. Additionally, we propose a breakdown analysis framework that decomposes complex EST questions into task-specific solution steps. This framework allows us to isolate and assess LLM performance at each stage of the reasoning process. Evaluation findings offer insights into the capability of LLMs in educational contexts and point toward targeted strategies for improving their reliability as intelligent tutoring systems.
- Abstract(参考訳): AIは学習体験を高める強力なツールを提供することで教育を変革している。
最近の進歩の中で、大きな言語モデル(LLM)は、学習者が教育コンテンツとどのように相互作用するかに革命をもたらすと特に約束している。
本研究は,英語標準試験(EST)に着目し,LLMが標準化試験準備を支援する可能性について検討する。
具体的には,様々な EST 質問タイプにまたがって,正確かつ文脈的に適切な解を生成する能力を評価する。
ESTBOOK は EST 問題の解法における LLM の機能を評価するための総合的なベンチマークである。
ESTBOOKは、29の質問タイプと10,576以上の質問を含む、テキスト、画像、オーディオ、テーブル、数学的シンボルを含む、広く認識されている5つのテストを集めている。
ESTBOOKを用いて,LLMの精度と推論効率を体系的に評価する。
さらに,複雑なEST質問をタスク固有の解ステップに分解する分解分析フレームワークを提案する。
このフレームワークは、推論プロセスの各段階におけるLCMのパフォーマンスを分離し、評価することを可能にする。
評価結果は、LLMの教育的文脈における能力に関する洞察を与え、知的チューリングシステムとしての信頼性を高めるための目標戦略への視点を与える。
関連論文リスト
- SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models [36.10798324093408]
SAS-Benchは、大規模言語モデル(LLM)ベースのショートアンサースコーリングタスクのベンチマークである。
詳細な、段階的なスコアリング、専門家による注釈付きエラーカテゴリ、さまざまな質問タイプを提供する。
また,1030の質問と4,109人の学生回答を含むオープンソースデータセットも公開しています。
論文 参考訳(メタデータ) (2025-05-12T05:43:21Z) - CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。
複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文 参考訳(メタデータ) (2024-10-23T04:55:08Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - Automate Knowledge Concept Tagging on Math Questions with LLMs [48.5585921817745]
知識概念のタグ付けは、現代の知的教育応用において重要な役割を担っている。
伝統的に、これらの注釈は教育専門家の助けを借りて手作業で行われてきた。
本稿では,Large Language Models (LLM) を用いたタグ付けタスクの自動化について検討する。
論文 参考訳(メタデータ) (2024-03-26T00:09:38Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。