論文の概要: Classroom Final Exam: An Instructor-Tested Reasoning Benchmark
- arxiv url: http://arxiv.org/abs/2602.19517v1
- Date: Mon, 23 Feb 2026 05:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.684857
- Title: Classroom Final Exam: An Instructor-Tested Reasoning Benchmark
- Title(参考訳): Classroom Final Exam: インストラクタによる推論ベンチマーク
- Authors: Chongyang Gao, Diji Yang, Shuyan Zhou, Xichen Yan, Luchuan Song, Shuo Li, Kezhen Chen,
- Abstract要約: CFE(textbfClassroom textbfFinal textbfExam)は、大規模言語モデルの推論能力を評価するためのベンチマークである。
CFEはフロンティアモデルにおいても大きな課題を提示している。
- 参考スコア(独自算出の注目度): 28.348498400526967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce \CFE{} (\textbf{C}lassroom \textbf{F}inal \textbf{E}xam), a multimodal benchmark for evaluating the reasoning capabilities of large language models across more than 20 STEM domains. \CFE{} is curated from repeatedly used, authentic university homework and exam problems, together with reference solutions provided by course instructors. \CFE{} presents a significant challenge even for frontier models: the newly released Gemini-3.1-pro-preview achieves an overall accuracy of 59.69\%, while the second-best model, Gemini-3-flash-preview, reaches 55.46\%, leaving considerable room for improvement. Beyond leaderboard results, we perform a diagnostic analysis by decomposing reference solutions into reasoning flows. We find that although frontier models can often answer intermediate sub-questions correctly, they struggle to reliably derive and maintain correct intermediate states throughout multi-step solutions. We further observe that model-generated solutions typically have more reasoning steps than those provided by the instructor, indicating suboptimal step efficiency and a higher risk of error accumulation. The data and code are available at https://github.com/Analogy-AI/CFE_Bench.
- Abstract(参考訳): 我々は20以上のSTEMドメインにわたる大規模言語モデルの推論能力を評価するためのマルチモーダルベンチマークである \CFE{} (\textbf{C}lassroom \textbf{F}inal \textbf{E}xam) を紹介する。
CFE{} は、授業教官が提供した参照ソリューションとともに、大学の真正な宿題と試験問題から繰り返し使用される。
新しくリリースされた Gemini-3.1-pro-preview は 59.69\% の精度を達成し、第2のベストモデル Gemini-3-flash-preview は 55.46\% の精度で改善の余地を残している。
リーダーボードの結果以外にも、参照ソリューションを推論フローに分解することで診断分析を行う。
我々は、フロンティアモデルはしばしば中間サブクエストに正しく答えることができるが、それらは多段階解全体を通して確実に中間状態を導出し、正しい状態を維持するのに苦労する。
さらに、モデル生成ソリューションは典型的にはインストラクターが提供するものよりも推論ステップが多く、最適ステップの効率とエラー蓄積のリスクが高いことを示す。
データとコードはhttps://github.com/Analogy-AI/CFE_Bench.comで公開されている。
関連論文リスト
- Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability [129.1296673737603]
大規模言語モデル(LLM)は、ステップ・バイ・ステップ・チェーン・オブ・シークレット(CoT)推論を通じて強力な推論能力を示している。
潜在的には、解のより効率的な探索を容易にするために複雑な問題をサブプロブレムに分解するDAC推論がある。
本稿では,DAC型推論能力を高めるために,エンドツーエンド強化学習(RL)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T18:54:54Z) - SMRC: Aligning Large Language Models with Student Reasoning for Mathematical Error Correction [13.864749522667273]
大規模言語モデル(LLM)は、数学的な問題を解く際にしばしば推論エラーを発生させる。
我々は,LLMを学生の推論と整合させる新しい手法であるtextttSMRC (textitunderlineStudent underline UnderlineReasoning underlineCorrection) を提案する。
論文 参考訳(メタデータ) (2025-11-18T17:22:37Z) - CombiGraph-Vis: A Curated Multimodal Olympiad Benchmark for Discrete Mathematical Reasoning [3.609560822507327]
State-of-the-art (SOTA) LLMは、証明ベースのOlympiad問題から、IMO 2025問題のほとんどを解決するまで、進歩してきた。
本稿では,90 Gemini 2.5 Pro生成ソリューションのコーパスを用いて,詳細なエラーアノテーションを用いた1-4スケールで評価を行った。
分析の結果、モデルが不正確な解を確実にフラグ付けできるが、部分クレジットの割り当て方法にキャリブレーションのギャップがあることがわかった。
論文 参考訳(メタデータ) (2025-10-31T01:31:58Z) - What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation [67.47463575774388]
我々は推論品質を関連性と一貫性の2つの次元に分解する。
これらの側面を確実に測定するために、因果的段階評価(CaSE)を導入する。
トレーニングデータをCaSEで評価した妥当性とコヒーレンスでキュレートすることで、最終タスクのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-10-23T14:30:37Z) - RefGrader: Automated Grading of Mathematical Competition Proofs using Agentic Workflows [8.700422995850152]
State-of-the-art (SOTA) LLMは、証明ベースのOlympiad問題から、IMO 2025問題のほとんどを解決するまで、進歩してきた。
本稿では,90 Gemini 2.5 Pro生成ソリューションのコーパスを用いて,詳細なエラーアノテーションを用いた1-4スケールで評価を行った。
分析の結果、モデルが不正確な解を確実にフラグ付けできるが、部分クレジットの割り当て方法にキャリブレーションのギャップがあることがわかった。
論文 参考訳(メタデータ) (2025-10-10T05:47:40Z) - Boosting Process-Correct CoT Reasoning by Modeling Solvability of Multiple-Choice QA [10.122669382758122]
モデルに対して質問が効果的に解決できない場合、思考の急激な連鎖(CoT)が出現しがちであることを示す。
結果監督型報酬モデルと強化学習をグループ相対的優位性で適用し,その目的に可解性を取り入れた。
本結果は,CoT推論における幻覚の低減と信頼性向上の鍵要因として可溶性を強調した。
論文 参考訳(メタデータ) (2025-09-30T08:34:16Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education [24.970741456147447]
大規模言語モデル(LLM)は、GSM8Kのようなベンチマークでほぼ完璧なパフォーマンスを達成し、驚くべき数学的推論能力を示している。
しかし、誤り診断やフィードバック生成よりも正確さが過大評価されているため、パーソナライズされた教育への応用は依然として限られている。
textbfMathCCSは,システム的エラー解析と修正されたフィードバックのためのベンチマークである。
第2に、過去のデータを利用してトレンドを追跡し、診断精度を向上させるシーケンシャルなエラー解析フレームワークを開発する。
第3に、歴史的分析のための時系列エージェントと実時間のためのMLLMエージェントを組み合わせたマルチエージェント協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-19T14:57:51Z) - ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T15:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。