論文の概要: CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions
- arxiv url: http://arxiv.org/abs/2606.06526v1
- Date: Tue, 02 Jun 2026 20:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.343541
- Title: CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions
- Title(参考訳): CrowdMath: クラウドソーシングによる数学的研究に関する議論のデータセット
- Authors: Sherin Muckatira, Jesse Geneson, Slava Gerovitch, Pavel Etingof, Mikhail Gronas, Anna Rumshisky,
- Abstract要約: 我々は、MIT PRIMES--Art of Problem Solving (AoPS)プログラムから164のエキスパートアノテートプログレスチェーンのデータセットであるCrowdMathを紹介する。
各チェーンは、オープンプロブレムステートメントから完成した証明まで、多人数のフォーラムディスカッションをトレースする。
モデルは次のポスト予測において83~88%の精度を達成し、数学的議論の局所的な流れに従うことができることを示唆している。
- 参考スコア(独自算出の注目度): 7.449578020792231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have made substantial progress on mathematical reasoning, but existing benchmarks typically evaluate well-specified problems with final answers, step-by-step solutions, or complete proofs. They do not capture collaborative open-problem solving: a setting in which participants propose partial arguments, identify gaps or errors in prior steps, repair flawed reasoning, and gradually synthesize incremental contributions into a proof. We introduce CrowdMath, a dataset of 164 expert-annotated progress chains from the MIT PRIMES--Art of Problem Solving (AoPS) CrowdMath program (2016-2025), a collaborative research initiative whose discussions have led to peer-reviewed publications. Each chain traces a multi-participant forum discussion from an open-problem statement to a completed proof. Posts are labeled by their functional roles in the evolving solution process, including partial progress, proof completion, erroneous reasoning, and error identification. We define evaluation tasks and benchmark six frontier models. Models achieve 83-88% accuracy on next-post prediction, suggesting that they can follow the local flow of mathematical discussion. However, they struggle to identify the functional significance of individual contributions with the best model achieving only 0.42 macro-F1 on post-role classification. CrowdMath exposes a gap between solving well-specified mathematical problems and understanding collaborative mathematical progress as it unfolds.
- Abstract(参考訳): 大規模な言語モデルは、数学的推論においてかなりの進歩を遂げてきたが、既存のベンチマークでは、最終解、ステップバイステップの解、あるいは完全な証明で、よく特定された問題を評価するのが一般的である。
参加者が部分的な議論を提案し、事前ステップのギャップやエラーを特定し、欠陥のある推論を修復し、徐々に証明に貢献する、という設定です。
我々は、MIT PRIMES-Art of Problem Solving (AoPS) CrowdMath Program (2016-2025) から164のエキスパートアノテートプログレスチェーンのデータセットであるCrowdMathを紹介した。
各チェーンは、オープンプロブレムステートメントから完成した証明まで、多人数のフォーラムディスカッションをトレースする。
ポストは、部分進行、証明完了、誤った推論、誤り識別など、進化するソリューションプロセスにおけるそれらの機能的役割によってラベル付けされる。
評価タスクを定義し、6つのフロンティアモデルをベンチマークする。
モデルは次のポスト予測において83~88%の精度を達成し、数学的議論の局所的な流れに従うことができることを示唆している。
しかし、彼らは個々のコントリビューションの機能的意義を最良のモデルで識別するのに苦労し、ポストロール分類では0.42マクロF1しか達成できなかった。
CrowdMathは、明確に定義された数学的問題を解くことと、それが広がるにつれて協調的な数学的進歩を理解することのギャップを露呈する。
関連論文リスト
- Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math [55.83696908107408]
スクラッチマス(ScratchMath)は,手書き数学のスクラッチワークにおける誤りの説明と分類のための新しいベンチマークである。
本データセットは,中国初等・中等生の1,720個の数学サンプルからなる。
我々は,ScratchMath上での16のMLLMを系統的に評価し,人的専門家に対する顕著な性能差を明らかにした。
論文 参考訳(メタデータ) (2026-03-26T02:57:20Z) - HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification [54.06301039725887]
計算および応用数学において8つの領域にまたがる100以上の未解決問題のベンチマークであるHorizonMathを紹介する。
我々のベンチマークは、発見が困難であり、意味のある数学的洞察を必要とする問題のクラスをターゲットにしているが、検証は計算的に効率的で簡単なものである。
論文 参考訳(メタデータ) (2026-03-16T17:59:53Z) - Towards Solving More Challenging IMO Problems via Decoupled Reasoning and Proving [48.22540519786074]
最近の研究では、非公式な精度は80%を超え、公式な成功はPutnamBenchのようなベンチマークで8%以下である。
低レベルの証明生成から高レベルの推論を分離する新しいフレームワークを提案する。
提案手法は,2000年以降のIMO問題に対して,従来のオープンソース証明者が未報告の課題として評価した。
論文 参考訳(メタデータ) (2025-07-07T22:38:49Z) - Solving Inequality Proofs with Large Language Models [42.667163027148916]
不等式証明は様々な科学・数学分野において不可欠である。
これにより、大きな言語モデル(LLM)の需要が高まるフロンティアとなる。
我々は、Olympiadレベルの不平等を専門家が計算したデータセットであるIneqMathをリリースした。
論文 参考訳(メタデータ) (2025-06-09T16:43:38Z) - MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。
5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。
我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文 参考訳(メタデータ) (2024-02-14T05:57:58Z) - CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities [25.857946070979576]
概念とHint-Annotated Math Problems (CHAMP) は、概念に注釈を付けた高校数学の競争問題である。
このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。
モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
論文 参考訳(メタデータ) (2024-01-13T03:18:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。