論文の概要: Evaluating Large Language Models on the 2026 Korean CSAT Mathematics Exam: Measuring Mathematical Ability in a Zero-Data-Leakage Setting
- arxiv url: http://arxiv.org/abs/2511.18649v2
- Date: Sun, 30 Nov 2025 15:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 13:32:07.417869
- Title: Evaluating Large Language Models on the 2026 Korean CSAT Mathematics Exam: Measuring Mathematical Ability in a Zero-Data-Leakage Setting
- Title(参考訳): 2026年韓国数学演習における大規模言語モデルの評価:ゼロデータリーク設定における数学的能力の測定
- Authors: Goun Pyeon, Inbum Heo, Jeesu Jung, Taewook Hwang, Hyuk Namgoong, Hyein Seo, Yerim Han, Eunbin Kim, Hyeonseok Kang, Sangkeun Jung,
- Abstract要約: 本研究は,2026年の韓国・カレッジ・スコラスティック能力テスト(CSAT)を用いた大規模言語モデル(LLM)の数学的推論能力について,体系的に評価した。
既存のベンチマークにおけるデータ漏洩問題に対処するため、試験公開から2時間以内に46の質問(22件、24件)をすべてデジタル化した。
- 参考スコア(独自算出の注目度): 5.313647446600863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study systematically evaluated the mathematical reasoning capabilities of Large Language Models (LLMs) using the 2026 Korean College Scholastic Ability Test (CSAT) Mathematics section, ensuring a completely contamination-free evaluation environment. To address data leakage issues in existing benchmarks, we digitized all 46 questions (22 common and 24 elective) within two hours of the exam's public release, eliminating any possibility of inclusion in model training data. We conducted comprehensive evaluations of 24 state-of-the-art LLMs across varying input modalities (Text-only, Image-only, Text+Figure) and prompt languages (Korean, English). The GPT-5 family models achieved perfect scores (100 points) under a limited set of language-modality configurations, while Grok 4, Qwen 3 235B, and Gemini 2.5 pro also scored above 97 points. Notably, gpt-oss-20B achieved 95.7 points despite its relatively small size, demonstrating high cost-effectiveness. Problem-specific analysis revealed Calculus as the weakest domain with significant performance degradation on 4-point high-difficulty problems. Text input consistently outperformed image input, while prompt language effects varied by model scale. In reasoning enhancement experiments with GPT-5 series, increased reasoning intensity improved performance (82.6->100 points) but quadrupled token usage and drastically reduced efficiency, suggesting that models with minimal reasoning may be more practical. This research contributes: (1) implementation of a completely unexposed evaluation environment, (2) a standardized digitization pipeline that converts human-targeted exam materials into LLM-ready evaluation data, and (3) a practical evaluation perspective integrating performance, cost, and time considerations. Detailed results and model comparisons are available at the 2026 Korean CSAT LLM Evaluation Leaderboard; https://isoft.cnu.ac.kr/csat2026/
- Abstract(参考訳): 本研究は,2026年の韓国・カレッジ・スコラスティック・アビリティ・テスト(CSAT)数学部を用いて,大規模言語モデル(LLM)の数学的推論能力を体系的に評価し,完全汚染のない評価環境を確保する。
既存のベンチマークにおけるデータ漏洩問題に対処するため、試験公開から2時間以内に46の質問(22の共通点と24の選択的点)をすべてデジタル化し、モデルトレーニングデータに含める可能性を排除した。
入力モダリティ(テキストオンリー,画像オンリー,テキスト+フィギュア)とプロンプト言語(韓国語,英語)にまたがる24種類のLLMの総合評価を行った。
GPT-5ファミリーモデルは言語モダリティの限定セットで完全なスコア(100点)を獲得し、Grok 4、Qwen 3 235B、Gemini 2.5 Proも97点を超えた。
特にgpt-oss-20Bは比較的小さなサイズにもかかわらず95.7ポイントを達成し、高い費用対効果を示した。
問題特異的解析により, 4点高微分問題において, 高い性能低下を示す最弱領域としてCalculusが明らかになった。
テキスト入力は画像入力より一貫して優れ、言語効果はモデルスケールによって変化した。
GPT-5シリーズによる推論強化実験では、推論強度が向上し(82.6->100点)、4倍のトークンの使用と大幅に効率が低下し、最小の推論を持つモデルはより実用的である可能性が示唆された。
本研究は,(1)未公開評価環境の実装,(2)人間を対象とする試験材料をLCM対応評価データに変換する標準化されたデジタル化パイプライン,(3)性能,コスト,時間を考慮した実用的評価視点の実現に寄与する。
詳細な結果とモデルの比較は、2026年の韓国 CSAT LLM Evaluation Leaderboard; https://isoft.cnu.ac.kr/csat2026/ で見ることができる。
関連論文リスト
- From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics [79.81905350372067]
我々は文脈的数学的推論を通してギャップを研究する。
AIMEとMATH-500の問題を2つのコンテキスト設定に再利用するベンチマークであるContextMATHを紹介する。
オープンソースモデルはSGとCSで13、34ポイント減少し、プロプライエタリモデルは13、20ポイント減少している。
論文 参考訳(メタデータ) (2026-01-30T14:56:04Z) - RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension [65.81339691942757]
RPC-Bench(RPC-Bench)は、高品質なコンピュータサイエンス論文のレビュー・リビューの交換から構築された大規模質問応答ベンチマークである。
我々は、科学研究の流れに沿ったきめ細かい分類を設計し、モデルがなぜ、何、どのように学術的な文脈で質問するかを理解し、答える能力を評価する。
論文 参考訳(メタデータ) (2026-01-14T11:37:00Z) - mmJEE-Eval: A Bilingual Multimodal Benchmark for Evaluating Scientific Reasoning in Vision-Language Models [2.0467354053171243]
インド化学高等試験(2019-2025)の1,460問からなる多モーダルバイリンガル(英語とヒンディー語)ベンチマークである textbfmmJEE-Eval を紹介する。
GPT-5, Gemini 2.5 Pro/Flash のフロンティア VLM は,400B パラメータへのスケーリングにもかかわらず,2025 の質問に対して 77~84% の精度を達成しているのに対し,オープンソースモデルは 37~45% である。
論文 参考訳(メタデータ) (2025-11-12T13:52:37Z) - Large Language Models Imitate Logical Reasoning, but at what Cost? [0.42970700836450487]
本稿では,18カ月間のフロンティア大言語モデルの推論能力を評価する。
我々は,2023年12月,2024年9月,2025年6月の3つの主要モデルの精度を,真偽の質問に対して測定した。
2023年から2024年までのパフォーマンス向上は、シークレットの隠された連鎖によるものである。
論文 参考訳(メタデータ) (2025-09-16T04:03:42Z) - Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning in LLMs [19.592385109516268]
大規模言語モデル(LLM)の現在のベンチマークは飽和状態に近づき、トレーニングセットの汚染によってますます損なわれている。
我々は、有名なウィリアム・ローウェル・パットナム数学コンペティションのベンチマークであるPatnam-AXIOMを紹介する。
変更プロトコルは、同じように困難で目に見えないインスタンスの無制限ストリームを生成します。
論文 参考訳(メタデータ) (2025-08-05T17:57:50Z) - PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models [33.45006997591683]
PHYBenchは、高校から物理オリンピックの難易度まで、500の物理問題のベンチマークである。
PHYBenchはオリジナルのコンテンツを通じてデータの汚染に対処し、欠陥のあるアイテムを除去するために体系的なキュレーションパイプラインを使用する。
PHYBenchはより多くのトークンを活性化し、推論モデル間のより強力な微分を提供する。
論文 参考訳(メタデータ) (2025-04-22T17:53:29Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts [7.856746367263317]
本稿では,大規模言語モデルの評価を目的とした頑健な評価フレームワークであるUTMath Benchmarkを紹介する。
これは9つの数学領域にまたがる1053個の最先端問題を含み、平均68個のテストケースがある。
最高の性能モデルであるo1-miniはわずか32.57%の問題を解き、o1-previewは27.16%、GPT-4oは26.93%であった。
論文 参考訳(メタデータ) (2024-11-11T18:59:02Z) - Evaluating Research Quality with Large Language Models: An Analysis of ChatGPT's Effectiveness with Different Settings and Inputs [3.9627148816681284]
本稿では、どのChatGPT入力がより良い品質スコア推定をもたらすかを評価する。
最適な入力は記事のタイトルと抽象であり、平均的なChatGPTスコアは人間のスコアと0.67と相関している。
論文 参考訳(メタデータ) (2024-08-13T09:19:21Z) - DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data [65.5290035371111]
本稿では,高校・学部レベルの数学競争問題から得られたリーン4証明データを生成する手法を提案する。
この合成データセットでDeepSeekMath 7Bモデルを微調整します。
我々のモデルは、Lean 4 Formalized International Mathematical Olympiad (FIMO)ベンチマークで148の問題を5つ証明しましたが、GPT-4は証明できませんでした。
論文 参考訳(メタデータ) (2024-05-23T09:03:42Z) - Investigating the Limitation of CLIP Models: The Worst-Performing
Categories [53.360239882501325]
コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T05:37:33Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。