論文の概要: CombiGraph-Vis: A Curated Multimodal Olympiad Benchmark for Discrete Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2510.27094v1
- Date: Fri, 31 Oct 2025 01:31:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.950111
- Title: CombiGraph-Vis: A Curated Multimodal Olympiad Benchmark for Discrete Mathematical Reasoning
- Title(参考訳): CombiGraph-Vis:離散数学的推論のためのマルチモーダルオリンピックベンチマーク
- Authors: Hamed Mahdavi, Pouria Mahdavinia, Alireza Farhadi, Pegah Mohammadipour, Samira Malek, Majid Daliri, Pedram Mohammadipour, Alireza Hashemi, Amir Khasahmadi, Vasant Honavar,
- Abstract要約: State-of-the-art (SOTA) LLMは、証明ベースのOlympiad問題から、IMO 2025問題のほとんどを解決するまで、進歩してきた。
本稿では,90 Gemini 2.5 Pro生成ソリューションのコーパスを用いて,詳細なエラーアノテーションを用いた1-4スケールで評価を行った。
分析の結果、モデルが不正確な解を確実にフラグ付けできるが、部分クレジットの割り当て方法にキャリブレーションのギャップがあることがわかった。
- 参考スコア(独自算出の注目度): 3.609560822507327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art (SOTA) LLMs have progressed from struggling on proof-based Olympiad problems to solving most of the IMO 2025 problems, with leading systems reportedly handling 5 of 6 problems. Given this progress, we assess how well these models can grade proofs: detecting errors, judging their severity, and assigning fair scores beyond binary correctness. We study proof-analysis capabilities using a corpus of 90 Gemini 2.5 Pro-generated solutions that we grade on a 1-4 scale with detailed error annotations, and on MathArena solution sets for IMO/USAMO 2025 scored on a 0-7 scale. Our analysis shows that models can reliably flag incorrect (including subtly incorrect) solutions but exhibit calibration gaps in how partial credit is assigned. To address this, we introduce agentic workflows that extract and analyze reference solutions and automatically derive problem-specific rubrics for a multi-step grading process. We instantiate and compare different design choices for the grading workflows, and evaluate their trade-offs. Across our annotated corpus and MathArena, our proposed workflows achieve higher agreement with human grades and more consistent handling of partial credit across metrics. We release all code, data, and prompts/logs to facilitate future research.
- Abstract(参考訳): 最先端のSOTA (State-of-the-art) LLMは、証明ベースのOlympiad問題からIMO 2025問題のほとんどを解決し、主要なシステムは6つのうち5つを処理していると報告されている。
この進歩を踏まえ、これらのモデルがどの程度の精度で証明を格付けできるかを評価する。
我々は,90 Gemini 2.5 Pro生成ソリューションを1-4スケールで詳細なエラーアノテーションで評価したコーパスと,0-7スケールで評価したIMO/USAMO 2025のMathArenaソリューションセットを用いて,実証分析能力について検討した。
我々の分析では、モデルが不正確な解を確実にフラグ付けできるが、部分的信用の割り当て方法にはキャリブレーションのギャップがあることを示している。
そこで本研究では,参照解の抽出と解析を行うエージェントワークフローを導入し,複数段階のグレーティングプロセスにおいて問題固有のルーリックを自動的に導出する。
グレーディングワークフローのさまざまな設計選択をインスタンス化し、比較し、トレードオフを評価します。
注釈付きコーパスとMathArena全体で、提案したワークフローは、人間のグレードとのより高い合意と、メトリクス間の部分クレジットの一貫性のある処理を実現します。
将来の研究を促進するために、すべてのコード、データ、プロンプト/ログをリリースします。
関連論文リスト
- Reliable Fine-Grained Evaluation of Natural Language Math Proofs [30.992321135182905]
本稿では,0-7スケールの微粒なスコアをモデル生成数学の証明に割り当てる評価器を開発するための体系的手法を提案する。
ProofBenchは,6つの主要な数学コンペティションから145の問題にまたがる,詳細な証明評価のエキスパートによる最初のデータセットである。
本稿では,強力な推論バックボーンLMと参照解とマーキングスキームからのリッチコンテキストを組み合わせた評価器ProofGraderと,シンプルなアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2025-10-14T02:59:07Z) - RefGrader: Automated Grading of Mathematical Competition Proofs using Agentic Workflows [8.700422995850152]
State-of-the-art (SOTA) LLMは、証明ベースのOlympiad問題から、IMO 2025問題のほとんどを解決するまで、進歩してきた。
本稿では,90 Gemini 2.5 Pro生成ソリューションのコーパスを用いて,詳細なエラーアノテーションを用いた1-4スケールで評価を行った。
分析の結果、モデルが不正確な解を確実にフラグ付けできるが、部分クレジットの割り当て方法にキャリブレーションのギャップがあることがわかった。
論文 参考訳(メタデータ) (2025-10-10T05:47:40Z) - Solving Inequality Proofs with Large Language Models [46.71658812761115]
不等式証明は様々な科学・数学分野において不可欠である。
これにより、大きな言語モデル(LLM)の需要が高まるフロンティアとなる。
我々は、Olympiadレベルの不平等を専門家が計算したデータセットであるIneqMathをリリースした。
論文 参考訳(メタデータ) (2025-06-09T16:43:38Z) - FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。
状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。
状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文 参考訳(メタデータ) (2025-02-27T16:23:25Z) - SimGrade: Using Code Similarity Measures for More Accurate Human Grading [5.797317782326566]
CS1講座では,不正確で矛盾のない自由応答型プログラミング問題の段階化が広く行われていることを示す。
そこで本稿では, 学生の応募を小学校の生徒に割り当てるアルゴリズムを提案し, (2) 受験者が以前同様の解を見た確率を最大化するために, 受験者を発注するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-19T23:06:23Z) - MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。
5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。
我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文 参考訳(メタデータ) (2024-02-14T05:57:58Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。