論文の概要: Evaluating Large Language Models on the 2026 Korean CSAT Mathematics Exam: Measuring Mathematical Ability in a Zero-Data-Leakage Setting
- arxiv url: http://arxiv.org/abs/2511.18649v2
- Date: Sun, 30 Nov 2025 15:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 13:32:07.417869
- Title: Evaluating Large Language Models on the 2026 Korean CSAT Mathematics Exam: Measuring Mathematical Ability in a Zero-Data-Leakage Setting
- Title(参考訳): 2026年韓国数学演習における大規模言語モデルの評価:ゼロデータリーク設定における数学的能力の測定
- Authors: Goun Pyeon, Inbum Heo, Jeesu Jung, Taewook Hwang, Hyuk Namgoong, Hyein Seo, Yerim Han, Eunbin Kim, Hyeonseok Kang, Sangkeun Jung,
- Abstract要約: 本研究は,2026年の韓国・カレッジ・スコラスティック能力テスト(CSAT)を用いた大規模言語モデル(LLM)の数学的推論能力について,体系的に評価した。
既存のベンチマークにおけるデータ漏洩問題に対処するため、試験公開から2時間以内に46の質問(22件、24件)をすべてデジタル化した。
- 参考スコア(独自算出の注目度): 5.313647446600863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study systematically evaluated the mathematical reasoning capabilities of Large Language Models (LLMs) using the 2026 Korean College Scholastic Ability Test (CSAT) Mathematics section, ensuring a completely contamination-free evaluation environment. To address data leakage issues in existing benchmarks, we digitized all 46 questions (22 common and 24 elective) within two hours of the exam's public release, eliminating any possibility of inclusion in model training data. We conducted comprehensive evaluations of 24 state-of-the-art LLMs across varying input modalities (Text-only, Image-only, Text+Figure) and prompt languages (Korean, English). The GPT-5 family models achieved perfect scores (100 points) under a limited set of language-modality configurations, while Grok 4, Qwen 3 235B, and Gemini 2.5 pro also scored above 97 points. Notably, gpt-oss-20B achieved 95.7 points despite its relatively small size, demonstrating high cost-effectiveness. Problem-specific analysis revealed Calculus as the weakest domain with significant performance degradation on 4-point high-difficulty problems. Text input consistently outperformed image input, while prompt language effects varied by model scale. In reasoning enhancement experiments with GPT-5 series, increased reasoning intensity improved performance (82.6->100 points) but quadrupled token usage and drastically reduced efficiency, suggesting that models with minimal reasoning may be more practical. This research contributes: (1) implementation of a completely unexposed evaluation environment, (2) a standardized digitization pipeline that converts human-targeted exam materials into LLM-ready evaluation data, and (3) a practical evaluation perspective integrating performance, cost, and time considerations. Detailed results and model comparisons are available at the 2026 Korean CSAT LLM Evaluation Leaderboard; https://isoft.cnu.ac.kr/csat2026/
- Abstract(参考訳): 本研究は,2026年の韓国・カレッジ・スコラスティック・アビリティ・テスト(CSAT)数学部を用いて,大規模言語モデル(LLM)の数学的推論能力を体系的に評価し,完全汚染のない評価環境を確保する。
既存のベンチマークにおけるデータ漏洩問題に対処するため、試験公開から2時間以内に46の質問(22の共通点と24の選択的点)をすべてデジタル化し、モデルトレーニングデータに含める可能性を排除した。
入力モダリティ(テキストオンリー,画像オンリー,テキスト+フィギュア)とプロンプト言語(韓国語,英語)にまたがる24種類のLLMの総合評価を行った。
GPT-5ファミリーモデルは言語モダリティの限定セットで完全なスコア(100点)を獲得し、Grok 4、Qwen 3 235B、Gemini 2.5 Proも97点を超えた。
特にgpt-oss-20Bは比較的小さなサイズにもかかわらず95.7ポイントを達成し、高い費用対効果を示した。
問題特異的解析により, 4点高微分問題において, 高い性能低下を示す最弱領域としてCalculusが明らかになった。
テキスト入力は画像入力より一貫して優れ、言語効果はモデルスケールによって変化した。
GPT-5シリーズによる推論強化実験では、推論強度が向上し(82.6->100点)、4倍のトークンの使用と大幅に効率が低下し、最小の推論を持つモデルはより実用的である可能性が示唆された。
本研究は,(1)未公開評価環境の実装,(2)人間を対象とする試験材料をLCM対応評価データに変換する標準化されたデジタル化パイプライン,(3)性能,コスト,時間を考慮した実用的評価視点の実現に寄与する。
詳細な結果とモデルの比較は、2026年の韓国 CSAT LLM Evaluation Leaderboard; https://isoft.cnu.ac.kr/csat2026/ で見ることができる。
関連論文リスト
- mmJEE-Eval: A Bilingual Multimodal Benchmark for Evaluating Scientific Reasoning in Vision-Language Models [2.0467354053171243]
インド化学高等試験(2019-2025)の1,460問からなる多モーダルバイリンガル(英語とヒンディー語)ベンチマークである textbfmmJEE-Eval を紹介する。
GPT-5, Gemini 2.5 Pro/Flash のフロンティア VLM は,400B パラメータへのスケーリングにもかかわらず,2025 の質問に対して 77~84% の精度を達成しているのに対し,オープンソースモデルは 37~45% である。
論文 参考訳(メタデータ) (2025-11-12T13:52:37Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts [7.856746367263317]
本稿では,大規模言語モデルの評価を目的とした頑健な評価フレームワークであるUTMath Benchmarkを紹介する。
これは9つの数学領域にまたがる1053個の最先端問題を含み、平均68個のテストケースがある。
最高の性能モデルであるo1-miniはわずか32.57%の問題を解き、o1-previewは27.16%、GPT-4oは26.93%であった。
論文 参考訳(メタデータ) (2024-11-11T18:59:02Z) - Evaluating Research Quality with Large Language Models: An Analysis of ChatGPT's Effectiveness with Different Settings and Inputs [3.9627148816681284]
本稿では、どのChatGPT入力がより良い品質スコア推定をもたらすかを評価する。
最適な入力は記事のタイトルと抽象であり、平均的なChatGPTスコアは人間のスコアと0.67と相関している。
論文 参考訳(メタデータ) (2024-08-13T09:19:21Z) - Investigating the Limitation of CLIP Models: The Worst-Performing
Categories [53.360239882501325]
コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T05:37:33Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。