論文の概要: From Struggle (06-2024) to Mastery (02-2025) LLMs Conquer Advanced Algorithm Exams and Pave the Way for Editorial Generation
- arxiv url: http://arxiv.org/abs/2506.04965v1
- Date: Thu, 05 Jun 2025 12:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.701737
- Title: From Struggle (06-2024) to Mastery (02-2025) LLMs Conquer Advanced Algorithm Exams and Pave the Way for Editorial Generation
- Title(参考訳): Struggle (06-2024)からMastery (02-2025) LLMs Conquer Advanced Algorithm Exams and Pave the Way for Editorial Generation
- Authors: Adrian Marius Dumitran, Theodor-Pierre Moroianu, Vasile Paul Alexe,
- Abstract要約: 本稿では,大学レベルのアルゴリズム試験において,最先端の大規模言語モデル(LLM)の性能を総合的に評価する。
ルーマニア語の試験と、その高品質な英語翻訳の両方で複数のモデルをテストすることで、LLMの問題解決能力、一貫性、多言語のパフォーマンスを分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a comprehensive evaluation of the performance of state-of-the-art Large Language Models (LLMs) on challenging university-level algorithms exams. By testing multiple models on both a Romanian exam and its high-quality English translation, we analyze LLMs' problem-solving capabilities, consistency, and multilingual performance. Our empirical study reveals that the most recent models not only achieve scores comparable to top-performing students but also demonstrate robust reasoning skills on complex, multi-step algorithmic challenges, even though difficulties remain with graph-based tasks. Building on these findings, we explore the potential of LLMs to support educational environments through the generation of high-quality editorial content, offering instructors a powerful tool to enhance student feedback. The insights and best practices discussed herein pave the way for further integration of generative AI in advanced algorithm education.
- Abstract(参考訳): 本稿では,大学レベルのアルゴリズム試験において,最先端の大規模言語モデル(LLM)の性能を総合的に評価する。
ルーマニア語の試験と、その高品質な英語翻訳の両方で複数のモデルをテストすることで、LLMの問題解決能力、一貫性、多言語のパフォーマンスを分析する。
私たちの経験的研究は、最新のモデルが成績の高い生徒に匹敵する結果を得るだけでなく、複雑な多段階のアルゴリズムの課題に対する堅牢な推論スキルも示していることを示しています。
これらの知見に基づいて,高品質な編集コンテンツの生成を通じて教育環境を支援するLLMの可能性を探究し,学生のフィードバックを高める強力なツールを提供する。
ここで議論された洞察とベストプラクティスは、高度なアルゴリズム教育における生成AIのさらなる統合の道を開くものである。
関連論文リスト
- Are LLMs Ready for English Standardized Tests? A Benchmarking and Elicitation Perspective [13.167177024716338]
大規模言語モデル(LLM)は、学習者が教育コンテンツとどのように相互作用するかに革命をもたらすと約束している。
英語標準テスト(EST)の多種多様なセットにまたがって、正確かつ文脈的に適切なソリューションを生成する能力を評価する。
論文 参考訳(メタデータ) (2025-05-17T05:10:44Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - Towards Efficient Educational Chatbots: Benchmarking RAG Frameworks [2.362412515574206]
大規模言語モデル(LLM)は、大量の文献に基づく情報を収集することで、教育において非常に有益であることが証明されている。
本稿では,LLMを活用してGATEソリューションを説明し,学生の試験準備を支援するAIを活用した質問応答フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-02T08:11:07Z) - How well can LLMs Grade Essays in Arabic? [3.101490720236325]
本研究では,AR-AESデータセットを用いたアラビア語自動エッセイスコアリング(AES)タスクにおける大規模言語モデル(LLM)の有効性を評価する。
ゼロショット、少数ショットのインコンテキスト学習、微調整など、さまざまな評価手法を探求する。
英語のプロンプトとアラビア語のコンテンツを統合する混合言語プロンプト戦略は、モデル理解とパフォーマンスを改善するために実装された。
論文 参考訳(メタデータ) (2025-01-27T21:30:02Z) - A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models [0.0]
本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。
我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。
我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-29T19:32:43Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data [20.31528845718877]
大規模言語モデル(LLM)は、非常に高度な自然言語理解を持ち、強力な問題解決能力を示した。
本稿では,新たに開発された"MathOdyssey"データセットを用いて,LLMの数学的問題解決能力について検討する。
論文 参考訳(メタデータ) (2024-06-26T13:02:35Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。