Fugu-MT 論文翻訳(概要): GTBench: A Curriculum-Grounded Benchmark for Evaluating LLMs as Mathematical Research Assistants in Graph Theory

論文の概要: GTBench: A Curriculum-Grounded Benchmark for Evaluating LLMs as Mathematical Research Assistants in Graph Theory

arxiv url: http://arxiv.org/abs/2606.03144v1
Date: Tue, 02 Jun 2026 04:40:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-03 22:00:04.764851
Title: GTBench: A Curriculum-Grounded Benchmark for Evaluating LLMs as Mathematical Research Assistants in Graph Theory
Title（参考訳）: GTBench:グラフ理論における数学的研究助手としてのLCMの評価のためのカリキュラム付きベンチマーク
Authors: Noujoud Nader, Ibrahem Aljabea, Patrick Diehl, Deepti Gupta,
Abstract要約: GTBenchは、グラフ理論の数学的研究アシスタントとして、大規模言語モデル(LLM)を評価するためのカリキュラムベースベンチマークである。 GPT-5, Claude Sonnet 4.6, Gemini 2.5 Flash-Lite, Llama 3.3 70B, Mistral Large 3 の評価を行った。
参考スコア（独自算出の注目度）: 0.0134610399747818
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are increasingly used as self-study assistants in technical disciplines, yet their reliability as mathematical reasoning assistants remains poorly understood. We introduce GTBench, a curriculum-grounded benchmark for evaluating LLMs as mathematical research assistants in graph theory, comprising 63 problems organized into three groups of increasing difficulty: undergraduate definitions and basic properties (Group 1), algorithm tracing and structural reasoning (Group 2), and graduate-level proof construction (Group 3). Problems are sourced from verified academic materials including Diestel's Graph Theory. We evaluate five frontier models -- GPT-5, Claude Sonnet 4.6, Gemini 2.5 Flash-Lite, Llama 3.3 70B, and Mistral Large 3 -- under zero-shot and chain-of-thought prompting, using exact-match and LLM-as-judge evaluation for Groups 1 and 2, and a hybrid human expert and LLM-as-judge protocol for Group 3. Our results reveal a pronounced performance hierarchy: GPT-5 approaches ceiling on Group 1 (95.8% zero-shot) and maintains meaningful accuracy on graduate proofs (82%), while all other models degrade substantially with difficulty, with Llama achieving 0% under human evaluation on Group 3 zero-shot. Failure mode analysis shows that correct algorithm, wrong execution errors dominate Groups 1 and 2, while Group 3 additionally surfaces incomplete reasoning failures and reveals systematic disagreement between human evaluators and the automated judge, particularly on verbose or near-complete proofs (kappa = 0.48-0.83 across human pairs). GTBench provides the first curriculum-grounded evaluation framework for graph-theoretic reasoning in LLMs, with direct implications for the governance of AI tools in mathematical education and scientific research.
Abstract（参考訳）: 大規模言語モデル (LLM) は、技術的分野における自己学習アシスタントとしてますます使われているが、数学的推論アシスタントとしての信頼性はいまだによく分かっていない。 GTBenchは,LLMをグラフ理論の数学的研究助手として評価するためのカリキュラム的なベンチマークであり,63の問題を3つの難解なグループに分類した: 学部定義と基本特性(グループ1),アルゴリズムのトレースと構造的推論(グループ2),大学院レベルの証明構築(グループ3)。問題はディーステルのグラフ理論を含む検証済みの学術資料から導かれる。 GPT-5, Claude Sonnet 4.6, Gemini 2.5 Flash-Lite, Llama 3.3 70B, Mistral Large 3の5つのフロンティアモデルを評価する。 GPT-5はグループ1(95.8%ゼロショット)の天井に近づき、卒業証明(82%)において有意な精度を維持する一方、他の全てのモデルでは難易度が大幅に低下し、Llamaはグループ3ゼロショットの人間による評価で0%に達する。失敗モード解析では、正しいアルゴリズム、間違った実行エラーがグループ1と2を支配しているのに対し、グループ3は不完全推論の失敗を表面化し、特に冗長またはほぼ完全証明(kappa = 0.48-0.83)について、人間の評価者と自動判断者との間の体系的な不一致を明らかにしている。 GTBenchは、数学教育と科学研究におけるAIツールのガバナンスに直接的な意味を持つ、LLMにおけるグラフ理論推論のための最初のカリキュラムベース評価フレームワークを提供する。

関連論文リスト

Human-in-the-Loop Benchmarking of Heterogeneous LLMs for Automated Competency Assessment in Secondary Level Mathematics [0.0]
本稿では,中等レベルの数学評価において,複数の LLM の有効性を評価するための "Human-in-the-Loop" ベンチマークフレームワークを提案する。ネパールのグレード10オプショナル数学のカリキュラムに基づいて,4つのトピックと4つの横断的能力のための多次元ルーブリックを作成した。 GeminiベースのMixture-of-Experts(Sparse MoE)モデルはFair Agreement(Kappa_w 0.38)を達成したが、より大きなOrion(70B)モデルはNo Agreement(Kappa_w = -0.0261)を示した。
論文参考訳（メタデータ） (2026-04-29T12:36:19Z)
ArguAgent: AI-Supported Real-Time Grouping for Productive Argumentation in STEM Classrooms [5.090665056048702]
アルグアジェント(ArguAgent)は、学生の姿勢と議論スキルに基づいたグループを作成するAIシステムである。検証された学習過程において、議論品質の違いを+/-1レベルに制限する。両方の設計基準を満たすグループの95.4%を達成しており、ランダムな割り当てよりも3.2倍改善されている。
論文参考訳（メタデータ） (2026-04-25T21:38:31Z)
LiveMathematicianBench: A Live Benchmark for Mathematician-Level Reasoning with Proof Sketches [61.30693283718321]
研究レベルの数学的推論のための動的多重選択ベンチマークであるLiveMathematicianBenchを提案する。新たに発表された定理で評価を基礎づけることで、記憶されたパターンを超えた現実的なテストベッドを提供する。このパイプラインは、高レベルな証明戦略を使用して、妥当だが無効な解選択を構築する。
論文参考訳（メタデータ） (2026-04-02T08:22:17Z)
RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文参考訳（メタデータ） (2025-11-27T07:20:52Z)
Mathematical Computation and Reasoning Errors by Large Language Models [3.0309252269809264]
大規模言語モデル(LLM)は、AIによる教育指導と評価にますます活用されている。本研究は,算術,代数学,数論を含む3分野の数学課題を解く4つの LLM の精度を評価することに焦点を当てる。推理強化された OpenAI o1 モデルが3つの数学タスクのカテゴリで常に高い精度またはほぼ完璧な精度を達成したことが観察された。
論文参考訳（メタデータ） (2025-08-13T16:33:02Z)
Evaluation of LLMs for mathematical problem solving [1.6811789875704863]
大規模言語モデル(LLM)は、様々な教育課題において優れた性能を示してきたが、数学的な問題を解く可能性についてはまだ検討されていない。我々は,GPT-4o,DeepSeek-V3,Gemini-2.0の3つの数学データセットを比較した。 GPT-4oはすべてのデータセットで最も安定しており、パフォーマンスに一貫性があるが、特にMIT Open Coursewareデータセットのハイレベルな質問では際立っている。
論文参考訳（メタデータ） (2025-05-30T23:37:37Z)
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。 OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文参考訳（メタデータ） (2025-03-27T11:20:17Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文参考訳（メタデータ） (2023-06-02T17:12:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。