論文の概要: Evaluating Large Language Models on Computer Science University Exams in Data Structures
- arxiv url: http://arxiv.org/abs/2604.23347v1
- Date: Sat, 25 Apr 2026 15:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.287145
- Title: Evaluating Large Language Models on Computer Science University Exams in Data Structures
- Title(参考訳): データ構造における大規模言語モデルの評価
- Authors: Edan Gabay, Yael Maoz, Jonathan Stahl, Naama Maoz, Abdo Amer, Orr Eilat, Hanoch Levy, Michal Kleinbort, Amir Rubinstein, Adi Haviv,
- Abstract要約: 本稿では,計算機科学(CS)データ構造検査におけるLLM(Large Language Models)の総合評価について述べる。
我々の研究はテルアビブ大学(TAU)による試験結果を含む新しいベンチマークデータセットを導入している。
TAU試験において,OpenAI の GPT 4o と Anthropic の Claude 3.5, 人気の LLM と Mathstral 7B と LLaMA 3 8B の2つの小型 LLM の性能評価を行った。
- 参考スコア(独自算出の注目度): 2.4232392088345285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a comprehensive evaluation of Large Language Models (LLMs) on Computer Science (CS) Data Structure examination questions. Our work introduces a new benchmark dataset comprising exam questions from Tel Aviv University (TAU), curated to assess LLMs' abilities in handling closed and multiple-choice questions. We evaluated the performance of OpenAI's GPT 4o and Anthropic's Claude 3.5, popular LLMs, alongside two smaller LLMs, Mathstral 7B and LLaMA 3 8B, across the TAU exams benchmark. Our findings provide insight into the current capabilities of LLMs in CS education.
- Abstract(参考訳): 本稿では,計算機科学(CS)データ構造検査におけるLLM(Large Language Models)の総合評価について述べる。
本研究は, テルアビブ大学 (TAU) の受験試験を含む, クローズド・マルチチョイス質問に対する LLM の処理能力を評価するためのベンチマークデータセットを提案する。
TAU試験において,OpenAI の GPT 4o と Anthropic の Claude 3.5, 人気の LLM と Mathstral 7B と LLaMA 3 8B の2つの小型 LLM の性能評価を行った。
CS教育におけるLCMの現在の能力について考察した。
関連論文リスト
- MateInfoUB: A Real-World Benchmark for Testing LLMs in Competitive, Multilingual, and Multimodal Educational Tasks [0.0]
本研究では, バイリンガル (英語-ルーマニア語) マルチモーダル (テキストと画像) による複数質問のデータセットを提案する。
我々のデータセットの特長は、問題のいくつかが論文の推論で簡単に解けるように考えられているのに対して、他の方法ではより効率的であることです。
論文 参考訳(メタデータ) (2025-07-03T20:43:28Z) - LLMzSzŁ: a comprehensive LLM benchmark for Polish [1.147194267316659]
この記事では、ポーランド語に関するこの規模での最初の包括的なベンチマークについて紹介する。
これは、ポーランド中央試験委員会のアーカイブから抽出された学術試験と専門試験の両方を含む、ポーランドの国家試験の一貫性のあるコレクションに基づいている。
そのほか、約19万のクローズドエンドの質問で構成されている。
論文 参考訳(メタデータ) (2025-01-04T12:04:46Z) - CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。
複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文 参考訳(メタデータ) (2024-10-23T04:55:08Z) - SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.02175403852253]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。
そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。
我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-06-14T21:52:21Z) - MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。