Fugu-MT 論文翻訳(概要): Assessment of Evolving Large Language Models in Upper Secondary Mathematics

論文の概要: Assessment of Evolving Large Language Models in Upper Secondary Mathematics

arxiv url: http://arxiv.org/abs/2504.12347v2
Date: Wed, 11 Jun 2025 10:49:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-12 23:41:16.663933
Title: Assessment of Evolving Large Language Models in Upper Secondary Mathematics
Title（参考訳）: 上級中等数学における進化する大言語モデルの評価
Authors: Mika Setälä, Pieta Sikström, Ville Heilala, Tommi Kärkkäinen,
Abstract要約: 大規模言語モデル (LLMs) は、教育環境での期待が高まっているが、数学的推論は進化していると考えられている。本研究では,高等中等教育のための高度なデジタルテストであるフィンランド・マトリキュレーション試験を用いて,様々なLSMの数学的能力を評価する。
参考スコア（独自算出の注目度）: 0.3749861135832073
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have shown increasing promise in educational settings, yet their mathematical reasoning has been considered evolving. This study evaluates the mathematical capabilities of various LLMs using the Finnish matriculation examination, a high-stakes digital test for upper secondary education. Initial tests yielded moderate performance corresponding to mid-range grades, but later evaluations demonstrated substantial improvements as the language models evolved. Remarkably, some models achieved near-perfect or perfect scores, matching top student performance and qualifying for university admission. Our findings highlight the rapid advances in the mathematical proficiency of LLMs and illustrate their potential as underlying tools to support learning and teaching in a variety of ways.
Abstract（参考訳）: 大規模言語モデル (LLMs) は、教育環境での期待が高まっているが、数学的推論は進化していると考えられている。本研究では,高等中等教育のための高度なデジタルテストであるフィンランド・マトリキュレーション試験を用いて,様々なLSMの数学的能力を評価する。初期試験では中等級に応じた適度な性能が得られたが、その後の評価では言語モデルが進化するにつれて大幅な改善が見られた。注目すべきは、いくつかのモデルがほぼ完璧または完璧にスコアを獲得し、トップクラスの成績と大学入学資格が一致したことだ。本研究は,LLMの数学的習熟度が急速に向上し,学習と教育を支援するための基礎的なツールとしての可能性を示すものである。

関連論文リスト

Automated Grading of Students' Handwritten Graphs: A Comparison of Meta-Learning and Vision-Large Language Models [0.0]
学生の手書きグラフとテキストを含む画像の自動分解のためのマルチモーダルメタラーニングモデルを実装した。視覚大言語モデル(VLLM)の性能と、これらの特別に訓練されたメタラーニングモデルとの比較を行った。我々の施設から収集した実世界のデータセットを用いて評価した結果、最も優れたメタラーニングモデルはVLLMを2方向の分類タスクで上回っていることがわかった。
論文参考訳（メタデータ） (2025-07-03T13:25:50Z)
From Struggle (06-2024) to Mastery (02-2025) LLMs Conquer Advanced Algorithm Exams and Pave the Way for Editorial Generation [0.0]
本稿では,大学レベルのアルゴリズム試験において,最先端の大規模言語モデル(LLM)の性能を総合的に評価する。ルーマニア語の試験と、その高品質な英語翻訳の両方で複数のモデルをテストすることで、LLMの問題解決能力、一貫性、多言語のパフォーマンスを分析する。
論文参考訳（メタデータ） (2025-06-05T12:41:20Z)
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。 OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文参考訳（メタデータ） (2025-03-27T11:20:17Z)
How well can LLMs Grade Essays in Arabic? [3.101490720236325]
本研究では,AR-AESデータセットを用いたアラビア語自動エッセイスコアリング(AES)タスクにおける大規模言語モデル(LLM)の有効性を評価する。ゼロショット、少数ショットのインコンテキスト学習、微調整など、さまざまな評価手法を探求する。英語のプロンプトとアラビア語のコンテンツを統合する混合言語プロンプト戦略は、モデル理解とパフォーマンスを改善するために実装された。
論文参考訳（メタデータ） (2025-01-27T21:30:02Z)
Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark [12.729687989535359]
大規模言語モデル(LLM)を英語以外の言語で評価することは、その言語的汎用性、文化的妥当性、そして多様なグローバルな文脈における適用性を保証するために不可欠である。 InVALSIテストは、イタリア全土の教育能力を測定するために設計された、確立された評価セットである。
論文参考訳（メタデータ） (2024-06-25T13:20:08Z)
MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文参考訳（メタデータ） (2024-06-25T11:03:45Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。 ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。 C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文参考訳（メタデータ） (2024-01-02T06:29:02Z)
Are Large Language Models Good Fact Checkers: A Preliminary Study [26.023148371263012]
大規模言語モデル(LLM)は、その卓越した推論能力と広範な知識リポジトリによって、大きな注目を集めている。本研究の目的は,特定のファクトチェックサブタスクに対処する上で,様々なLSMを包括的に評価することである。
論文参考訳（メタデータ） (2023-11-29T05:04:52Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Evaluating the Generation Capabilities of Large Chinese Language Models [27.598864484231477]
本稿では,CG-Evalについて紹介する。学術分野にまたがる大規模な中国語モデルの生成能力を評価する。 Gscoreは、参照標準に対するモデルのテキスト生成の品質測定を自動化する。
論文参考訳（メタデータ） (2023-08-09T09:22:56Z)
Improving Factuality and Reasoning in Language Models through Multiagent Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文参考訳（メタデータ） (2023-05-23T17:55:11Z)
Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文参考訳（メタデータ） (2023-05-21T14:39:28Z)
A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文参考訳（メタデータ） (2023-03-31T17:28:46Z)
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文参考訳（メタデータ） (2023-01-27T18:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。