Fugu-MT 論文翻訳(概要): Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

論文の概要: Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

arxiv url: http://arxiv.org/abs/2602.19517v1
Date: Mon, 23 Feb 2026 05:17:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.684857
Title: Classroom Final Exam: An Instructor-Tested Reasoning Benchmark
Title（参考訳）: Classroom Final Exam: インストラクタによる推論ベンチマーク
Authors: Chongyang Gao, Diji Yang, Shuyan Zhou, Xichen Yan, Luchuan Song, Shuo Li, Kezhen Chen,
Abstract要約: CFE(textbfClassroom textbfFinal textbfExam)は、大規模言語モデルの推論能力を評価するためのベンチマークである。 CFEはフロンティアモデルにおいても大きな課題を提示している。
参考スコア（独自算出の注目度）: 28.348498400526967
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce \CFE{} (\textbf{C}lassroom \textbf{F}inal \textbf{E}xam), a multimodal benchmark for evaluating the reasoning capabilities of large language models across more than 20 STEM domains. \CFE{} is curated from repeatedly used, authentic university homework and exam problems, together with reference solutions provided by course instructors. \CFE{} presents a significant challenge even for frontier models: the newly released Gemini-3.1-pro-preview achieves an overall accuracy of 59.69\%, while the second-best model, Gemini-3-flash-preview, reaches 55.46\%, leaving considerable room for improvement. Beyond leaderboard results, we perform a diagnostic analysis by decomposing reference solutions into reasoning flows. We find that although frontier models can often answer intermediate sub-questions correctly, they struggle to reliably derive and maintain correct intermediate states throughout multi-step solutions. We further observe that model-generated solutions typically have more reasoning steps than those provided by the instructor, indicating suboptimal step efficiency and a higher risk of error accumulation. The data and code are available at https://github.com/Analogy-AI/CFE_Bench.
Abstract（参考訳）: 我々は20以上のSTEMドメインにわたる大規模言語モデルの推論能力を評価するためのマルチモーダルベンチマークである \CFE{} (\textbf{C}lassroom \textbf{F}inal \textbf{E}xam) を紹介する。 CFE{} は、授業教官が提供した参照ソリューションとともに、大学の真正な宿題と試験問題から繰り返し使用される。新しくリリースされた Gemini-3.1-pro-preview は 59.69\% の精度を達成し、第2のベストモデル Gemini-3-flash-preview は 55.46\% の精度で改善の余地を残している。リーダーボードの結果以外にも、参照ソリューションを推論フローに分解することで診断分析を行う。我々は、フロンティアモデルはしばしば中間サブクエストに正しく答えることができるが、それらは多段階解全体を通して確実に中間状態を導出し、正しい状態を維持するのに苦労する。さらに、モデル生成ソリューションは典型的にはインストラクターが提供するものよりも推論ステップが多く、最適ステップの効率とエラー蓄積のリスクが高いことを示す。データとコードはhttps://github.com/Analogy-AI/CFE_Bench.comで公開されている。

関連論文リスト

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。 IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文参考訳（メタデータ） (2026-03-05T02:21:17Z)
Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文参考訳（メタデータ） (2026-02-26T11:08:39Z)
RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty [102.02839046225468]
RankLLMは質問の難しさとモデルの能力の両方を定量化する新しいフレームワークである。複数のドメインにまたがる35,550の質問に対して30のモデルを評価する。
論文参考訳（メタデータ） (2026-02-12T21:28:46Z)
Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability [129.1296673737603]
大規模言語モデル(LLM)は、ステップ・バイ・ステップ・チェーン・オブ・シークレット(CoT)推論を通じて強力な推論能力を示している。潜在的には、解のより効率的な探索を容易にするために複雑な問題をサブプロブレムに分解するDAC推論がある。本稿では,DAC型推論能力を高めるために,エンドツーエンド強化学習(RL)フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-02T18:54:54Z)
SMRC: Aligning Large Language Models with Student Reasoning for Mathematical Error Correction [13.864749522667273]
大規模言語モデル(LLM)は、数学的な問題を解く際にしばしば推論エラーを発生させる。我々は,LLMを学生の推論と整合させる新しい手法であるtextttSMRC (textitunderlineStudent underline UnderlineReasoning underlineCorrection) を提案する。
論文参考訳（メタデータ） (2025-11-18T17:22:37Z)
MiRAGE: Misconception Detection with Retrieval-Guided Multi-Stage Reasoning and Ensemble Fusion [0.0]
MiRAGEは数学における誤解の自動検出のための新しいフレームワークである。 1)Retrievalモジュールは、大きな候補プールを意味的に関連するサブセットに絞り込み、(2)Reasoningモジュールは、学生ソリューションにおける論理的不整合を明らかにする。数学のデータセットにおいて、MiRAGEは平均精度スコア0.82/0.92/0.93をレベル1/3/5で達成し、個々のモジュールを一貫して上回る。
論文参考訳（メタデータ） (2025-11-03T03:17:36Z)
CombiGraph-Vis: A Curated Multimodal Olympiad Benchmark for Discrete Mathematical Reasoning [3.609560822507327]
State-of-the-art (SOTA) LLMは、証明ベースのOlympiad問題から、IMO 2025問題のほとんどを解決するまで、進歩してきた。本稿では,90 Gemini 2.5 Pro生成ソリューションのコーパスを用いて,詳細なエラーアノテーションを用いた1-4スケールで評価を行った。分析の結果、モデルが不正確な解を確実にフラグ付けできるが、部分クレジットの割り当て方法にキャリブレーションのギャップがあることがわかった。
論文参考訳（メタデータ） (2025-10-31T01:31:58Z)
What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation [67.47463575774388]
我々は推論品質を関連性と一貫性の2つの次元に分解する。これらの側面を確実に測定するために、因果的段階評価(CaSE)を導入する。トレーニングデータをCaSEで評価した妥当性とコヒーレンスでキュレートすることで、最終タスクのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-10-23T14:30:37Z)
RefGrader: Automated Grading of Mathematical Competition Proofs using Agentic Workflows [8.700422995850152]
State-of-the-art (SOTA) LLMは、証明ベースのOlympiad問題から、IMO 2025問題のほとんどを解決するまで、進歩してきた。本稿では,90 Gemini 2.5 Pro生成ソリューションのコーパスを用いて,詳細なエラーアノテーションを用いた1-4スケールで評価を行った。分析の結果、モデルが不正確な解を確実にフラグ付けできるが、部分クレジットの割り当て方法にキャリブレーションのギャップがあることがわかった。
論文参考訳（メタデータ） (2025-10-10T05:47:40Z)
ArenaBencher: Automatic Benchmark Evolution via Multi-Model Competitive Evaluation [33.22383550511664]
ArenaBencherは自動ベンチマーク進化のためのモデルに依存しないフレームワークである。アリーナベンチャーを数学の問題解決、常識推論、安全領域に適用する。
論文参考訳（メタデータ） (2025-10-09T17:59:55Z)
Boosting Process-Correct CoT Reasoning by Modeling Solvability of Multiple-Choice QA [10.122669382758122]
モデルに対して質問が効果的に解決できない場合、思考の急激な連鎖(CoT)が出現しがちであることを示す。結果監督型報酬モデルと強化学習をグループ相対的優位性で適用し,その目的に可解性を取り入れた。本結果は,CoT推論における幻覚の低減と信頼性向上の鍵要因として可溶性を強調した。
論文参考訳（メタデータ） (2025-09-30T08:34:16Z)
Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。 Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。 SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文参考訳（メタデータ） (2025-09-25T14:05:55Z)
The Majority is not always right: RL training for solution aggregation [53.1050856072799]
我々はアグリゲータモデルをトレーニングし、最終的な正解をレビューし、精査し、合成する。重要な要素は、簡単なトレーニング例と厳しいトレーニング例のバランスを取ることだ。我々の手法であるAggLMは、強いルールベースと報酬モデルベースラインの両方を上回ります。
論文参考訳（メタデータ） (2025-09-08T16:39:38Z)
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文参考訳（メタデータ） (2025-02-27T16:23:25Z)
From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education [24.970741456147447]
大規模言語モデル(LLM)は、GSM8Kのようなベンチマークでほぼ完璧なパフォーマンスを達成し、驚くべき数学的推論能力を示している。しかし、誤り診断やフィードバック生成よりも正確さが過大評価されているため、パーソナライズされた教育への応用は依然として限られている。 textbfMathCCSは,システム的エラー解析と修正されたフィードバックのためのベンチマークである。第2に、過去のデータを利用してトレンドを追跡し、診断精度を向上させるシーケンシャルなエラー解析フレームワークを開発する。第3に、歴史的分析のための時系列エージェントと実時間のためのMLLMエージェントを組み合わせたマルチエージェント協調フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-19T14:57:51Z)
ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。 ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文参考訳（メタデータ） (2024-12-09T15:11:40Z)
Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文参考訳（メタデータ） (2023-05-24T11:55:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。