論文の概要: DOoM: Difficult Olympiads of Math
- arxiv url: http://arxiv.org/abs/2509.23529v1
- Date: Sat, 27 Sep 2025 23:37:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.275109
- Title: DOoM: Difficult Olympiads of Math
- Title(参考訳): DOOM: 数学の難解なオリンピック
- Authors: Ilya Kuleshov, Ilin Pavel, Nikolay Kompanets, Ksenia Sycheva, Aleksandr Nikolich,
- Abstract要約: 本稿では,ロシア語の数学や物理問題を解く際の言語モデルの能力を評価するために設計された,新たなオープンソースベンチマークであるDOoMを紹介する。
このベンチマークには、学校レベルのタスクからオリンピアード大学や入学試験の質問まで、さまざまな難易度の問題が含まれている。
結果から, モデル性能と使用するトークン数との相関関係が示され, 数学と物理のタスク間の性能差が強調される。
- 参考スコア(独自算出の注目度): 36.94429692322632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces DOoM, a new open-source benchmark designed to assess the capabilities of language models in solving mathematics and physics problems in Russian. The benchmark includes problems of varying difficulty, ranging from school-level tasks to university Olympiad and entrance exam questions. In this paper we discuss the motivation behind its creation, describe dataset's structure and evaluation methodology, and present initial results from testing various models. Analysis of the results shows a correlation between model performance and the number of tokens used, and highlights differences in performance between mathematics and physics tasks.
- Abstract(参考訳): 本稿では,ロシア語の数学や物理問題を解く際の言語モデルの能力を評価するために設計された,新たなオープンソースベンチマークであるDOoMを紹介する。
このベンチマークには、学校レベルのタスクからオリンピアード大学や入学試験の質問まで、さまざまな難易度の問題が含まれている。
本稿では,その背後にあるモチベーションについて論じ,データセットの構造と評価手法について述べるとともに,各種モデルの試験結果について述べる。
結果から, モデル性能と使用するトークン数との相関関係が示され, 数学と物理のタスク間の性能差が強調される。
関連論文リスト
- Benchmarking Foundation Models with Retrieval-Augmented Generation in Olympic-Level Physics Problem Solving [56.119382216818195]
基礎モデルを用いた検索拡張世代(RAG)は,様々なタスクにおいて高い性能を達成している。
しかし、オリンピアードレベルの物理学問題を解くような専門家レベルの推論能力は、ほとんど解明されていない。
我々は,Olympiadレベルの物理に特化して設計された高品質なマルチモーダルデータセットであるPhoPileを紹介する。
PhoPileを用いて,大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) の両方を複数のレトリバーでカバーするRAG拡張基盤モデルのベンチマークを行った。
論文 参考訳(メタデータ) (2025-10-01T13:57:53Z) - RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics [21.453837660747844]
大規模言語モデル(LLM)における数学的推論を評価するための既存のベンチマークは、主に競合問題、公式な証明、人工的な問題に依存している。
論文や数理フォーラムから直接派生した新しいベンチマークであるRealMathを導入し,実数理タスクにおけるLLMの能力を評価する。
論文 参考訳(メタデータ) (2025-05-18T23:32:46Z) - HARDMath2: A Benchmark for Applied Mathematics Built by Students as Part of a Graduate Class [27.93059568425132]
HARDMath2は、大学院応用数学クラスの中核トピックをカバーする211のオリジナル問題のデータセットである。
このデータセットはハーバード大学のコア大学院数学コースの学生とインストラクターによって設計され、検証された。
このデータセットは、学生がクラスシラバスと整合した難しい問題を書き、洗練するよう促す、新しい協調環境を通じて構築されます。
論文 参考訳(メタデータ) (2025-05-17T00:52:49Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities [25.857946070979576]
概念とHint-Annotated Math Problems (CHAMP) は、概念に注釈を付けた高校数学の競争問題である。
このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。
モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
論文 参考訳(メタデータ) (2024-01-13T03:18:16Z) - GeomVerse: A Systematic Evaluation of Large Models for Geometric
Reasoning [17.61621287003562]
幾何学問題のレンズを用いて視覚言語モデル(VLM)を様々な軸に沿って評価する。
複数の軸に沿った制御可能な難易度を持つ幾何学的質問の合成データセットを手続き的に作成する。
最新のVLMのベンチマークを用いて得られた実験結果から,これらのモデルが幾何学的対象に適さないことが示された。
論文 参考訳(メタデータ) (2023-12-19T15:25:39Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。