論文の概要: RIMO: An Easy-to-Evaluate, Hard-to-Solve Olympiad Benchmark for Advanced Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2509.07711v1
- Date: Tue, 09 Sep 2025 13:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.32473
- Title: RIMO: An Easy-to-Evaluate, Hard-to-Solve Olympiad Benchmark for Advanced Mathematical Reasoning
- Title(参考訳): RIMO:高度な数学的推論のための簡易でハードなオリンピアドベンチマーク
- Authors: Ziye Chen, Chengwei Qin, Yao Shu,
- Abstract要約: RIMOは、評価ノイズを排除しつつ、オリンピアードのピークの難しさを抑えるために設計された2トラックのベンチマークである。
最初のトラックであるRIMO-Nは、335の問題を書き換えて1つの独特な整数応答を許容し、決定論的正当性チェックを可能にする。
第2のトラックであるRIMO-Pは、エキスパートチェックされたソリューションに関する456の証明問題を特徴とし、ステップバイステップの推論プロセスを評価するためにサブプロブレムのシーケンスに分解される。
- 参考スコア(独自算出の注目度): 26.173204350710833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) reach high scores on established mathematical benchmarks, such as GSM8K and MATH, the research community has turned to International Mathematical Olympiad (IMO) problems to push the evaluation frontier. However, existing Olympiad-level benchmarks suffer from practical constraints that introduce grading noise and potential bias, such as heterogeneous answer formats requiring model-based judges and a reliance on potentially flawed solutions. We introduce RIMO, a two-track benchmark designed to preserve peak Olympiad difficulty while eliminating this evaluation noise. The first track, RIMO-N, rewrites 335 IMO problems to admit a single, unique integer answer, allowing for deterministic correctness checking. The second track, RIMO-P, features 456 proof problems with expert-checked solutions, which are decomposed into a sequence of sub-problems to evaluate the step-by-step reasoning process via an automated grading system. Our benchmarking of ten frontier LLMs, including GPT-4o and Gemini 2.5 Flash, reveals that while these systems excel on older benchmarks, their performance drops sharply on RIMO. These results highlight a substantial gap between current LLM capabilities and actual Olympiad-level reasoning. By providing a challenging yet easy-to-evaluate suite, RIMO offers a high-resolution yardstick for future research, presenting a clear target for closing the profound reasoning gap our findings expose.
- Abstract(参考訳): 大規模言語モデル(LLM)がGSM8KやMATHなどの確立した数学ベンチマークで高いスコアに達するにつれ、研究コミュニティは国際数学オリンピック(IMO)問題に転換し、評価フロンティアを推し進めている。
しかし、既存のOlympiadレベルのベンチマークは、モデルベースの判断を必要とする不均一な応答形式や潜在的な欠陥のあるソリューションへの依存など、グレーディングノイズや潜在的なバイアスをもたらす実用的な制約に悩まされている。
我々は,この評価ノイズを排除しつつ,オリンピアードピークの難易度を維持するために設計された2トラックベンチマークRIMOを紹介する。
最初のトラックであるRIMO-Nは、335 IMO問題を書き換えて1つの独特な整数応答を許容し、決定論的正当性チェックを可能にする。
第2のトラックであるRIMO-Pは、エキスパートチェックされたソリューションに関する456の証明問題を特徴とし、自動階調システムを通じてステップバイステップの推論プロセスを評価するために一連のサブプロブレムに分解される。
GPT-4o や Gemini 2.5 Flash を含む10のフロンティア LLM のベンチマークでは,これらのシステムは古いベンチマークでは優れているが,RIMO では性能が急激に低下していることが明らかになった。
これらの結果は,現在のLLM能力とOlympiadレベルの推論との間に大きなギャップがあることを浮き彫りにしている。
RIMOは、難しいが容易に評価できるスイートを提供することで、将来の研究に高解像度のヤードスティックを提供し、我々の発見が明らかにした深い推論ギャップを埋めるための明確な目標を提示する。
関連論文リスト
- MathArena: Evaluating LLMs on Uncontaminated Math Competitions [0.9320657506524149]
MathArenaは、大きな言語モデル(LLM)を評価するための新しいベンチマークである。
繰り返し行われる数学コンペは、高品質で困難な問題のストリームを提供する。
MathArenaは、証明書込み機能の最初のベンチマークでもある。
論文 参考訳(メタデータ) (2025-05-29T09:28:06Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。