論文の概要: DOoM: Difficult Olympiads of Math
- arxiv url: http://arxiv.org/abs/2509.23529v1
- Date: Sat, 27 Sep 2025 23:37:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.275109
- Title: DOoM: Difficult Olympiads of Math
- Title(参考訳): DOOM: 数学の難解なオリンピック
- Authors: Ilya Kuleshov, Ilin Pavel, Nikolay Kompanets, Ksenia Sycheva, Aleksandr Nikolich,
- Abstract要約: 本稿では,ロシア語の数学や物理問題を解く際の言語モデルの能力を評価するために設計された,新たなオープンソースベンチマークであるDOoMを紹介する。
このベンチマークには、学校レベルのタスクからオリンピアード大学や入学試験の質問まで、さまざまな難易度の問題が含まれている。
結果から, モデル性能と使用するトークン数との相関関係が示され, 数学と物理のタスク間の性能差が強調される。
- 参考スコア(独自算出の注目度): 36.94429692322632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces DOoM, a new open-source benchmark designed to assess the capabilities of language models in solving mathematics and physics problems in Russian. The benchmark includes problems of varying difficulty, ranging from school-level tasks to university Olympiad and entrance exam questions. In this paper we discuss the motivation behind its creation, describe dataset's structure and evaluation methodology, and present initial results from testing various models. Analysis of the results shows a correlation between model performance and the number of tokens used, and highlights differences in performance between mathematics and physics tasks.
- Abstract(参考訳): 本稿では,ロシア語の数学や物理問題を解く際の言語モデルの能力を評価するために設計された,新たなオープンソースベンチマークであるDOoMを紹介する。
このベンチマークには、学校レベルのタスクからオリンピアード大学や入学試験の質問まで、さまざまな難易度の問題が含まれている。
本稿では,その背後にあるモチベーションについて論じ,データセットの構造と評価手法について述べるとともに,各種モデルの試験結果について述べる。
結果から, モデル性能と使用するトークン数との相関関係が示され, 数学と物理のタスク間の性能差が強調される。
関連論文リスト
- RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics [21.453837660747844]
大規模言語モデル(LLM)における数学的推論を評価するための既存のベンチマークは、主に競合問題、公式な証明、人工的な問題に依存している。
論文や数理フォーラムから直接派生した新しいベンチマークであるRealMathを導入し,実数理タスクにおけるLLMの能力を評価する。
論文 参考訳(メタデータ) (2025-05-18T23:32:46Z) - HARDMath2: A Benchmark for Applied Mathematics Built by Students as Part of a Graduate Class [27.93059568425132]
HARDMath2は、大学院応用数学クラスの中核トピックをカバーする211のオリジナル問題のデータセットである。
このデータセットはハーバード大学のコア大学院数学コースの学生とインストラクターによって設計され、検証された。
このデータセットは、学生がクラスシラバスと整合した難しい問題を書き、洗練するよう促す、新しい協調環境を通じて構築されます。
論文 参考訳(メタデータ) (2025-05-17T00:52:49Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities [25.857946070979576]
概念とHint-Annotated Math Problems (CHAMP) は、概念に注釈を付けた高校数学の競争問題である。
このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。
モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
論文 参考訳(メタデータ) (2024-01-13T03:18:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。