論文の概要: Are LLMs Ready for Computer Science Education? A Cross-Domain, Cross-Lingual and Cognitive-Level Evaluation Using Professional Certification Exams
- arxiv url: http://arxiv.org/abs/2604.06898v1
- Date: Wed, 08 Apr 2026 09:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.46674
- Title: Are LLMs Ready for Computer Science Education? A Cross-Domain, Cross-Lingual and Cognitive-Level Evaluation Using Professional Certification Exams
- Title(参考訳): LLMはコンピュータサイエンス教育の準備が整っているか : 専門認定試験を用いたクロスドメイン・クロスランガル・認知レベル評価
- Authors: Chen Gao, Chi Liu, Zhengquan Luo, Dongfu Xiao, Maiying Sui, Sheng Shen, Congcong Zhu, Huajie Chen, Xuhan Zuo, Zongyuan Ge, Tianqing Zhu, Wanlei Zhou, Xiaotong Han,
- Abstract要約: GPT-5は英語の認証で最高の成績を上げ、Qwen-Plusは中国語の文脈でより良い成績を収めた。
DeepSeek-R1は最もバランスの取れた言語間性能を達成したが、Llama-3.3は高次推論とロバスト性に明確な制限を示した。
- 参考スコア(独自算出の注目度): 34.15435577373619
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly applied in computer science education for tasks such as tutoring, content generation, and code assessment. However, systematic evaluations aligned with formal curricula and certification standards remain limited. This study benchmarked four recent models, including GPT-5, DeepSeek-R1, Qwen-Plus, and Llama-3.3-70B-Instruct, using a dataset of 1,068 questions derived from six certification exams covering networking, office applications, and Java programming. We evaluated performance across language (Chinese vs. English), cognitive levels based on Bloom's Taxonomy, domain knowledge, confidence-accuracy alignment, and robustness to input masking. Results showed that GPT-5 performed best on English-language certifications, while Qwen-Plus performed better in Chinese contexts. DeepSeek-R1 achieved the most balanced cross-lingual performance, whereas Llama-3.3 showed clear limitations in higher-order reasoning and robustness. All models performed worse on more complex tasks. These findings provide empirical support for the integration of LLMs into computer science education and offer practical implications for curriculum design and assessment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、チュータリング、コンテンツ生成、コードアセスメントといったタスクに対して、コンピュータサイエンスの教育にますます応用されている。
しかし、正式なカリキュラムや認定基準に沿った体系的な評価は依然として限られている。
GPT-5、DeepSeek-R1、Qwen-Plus、Llama-3.3-70B-Instructを含む最近の4つのモデルを、ネットワーク、オフィスアプリケーション、Javaプログラミングをカバーする6つの認定試験から得られた1,068のデータセットを用いてベンチマークした。
言語(中国語対英語)、ブルームの分類に基づく認知レベル、ドメイン知識、信頼度・正確性アライメント、入力マスキングに対する堅牢性を評価した。
その結果, GPT-5は英語の認定において, Qwen-Plusは中国語の文脈では優れていた。
DeepSeek-R1は最もバランスの取れた言語間性能を達成したが、Llama-3.3は高次推論とロバスト性に明確な制限を示した。
より複雑なタスクでは、すべてのモデルがより悪くなりました。
これらの知見は、LLMをコンピュータサイエンス教育に統合するための実証的な支援を提供し、カリキュラムの設計と評価に実践的な意味を提供する。
関連論文リスト
- Assessing the Software Security Comprehension of Large Language Models [4.1613645562134085]
本研究は,5大言語モデル(LLM)のセキュリティ理解を体系的に評価する。
記憶、理解、適用、分析、評価、創造の6つの認知次元を評価します。
モデルが信頼性のある性能を継続的に維持する上で,最高の認知レベルを識別するソフトウェアセキュリティ知識境界を導入する。
論文 参考訳(メタデータ) (2025-12-24T15:29:54Z) - Harnessing the Power of Large Language Models for Software Testing Education: A Focus on ISTQB Syllabus [0.6524460254566903]
International Software Testing Qualifications Board (ISTQB) 認定フレームワークは世界規模で認められ、業界や学術分野で広く採用されている。
本稿では,大規模言語モデル (LLM) が高等教育における ISTQB フレームワークをどのように補完するかを考察し,評価する。
論文 参考訳(メタデータ) (2025-10-25T14:45:58Z) - Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective [53.594353527056775]
我々は,大言語モデル(LLM)を評価するために,中国語コモンセンスマルチホップ推論(CCMOR)を提案する。
CCMORは、中国固有の事実知識と多段階論理的推論を統合するLLMの能力を評価するように設計されている。
提案手法では,提案手法を用いて,提案手法の検証と検証を行う。
論文 参考訳(メタデータ) (2025-10-09T20:29:00Z) - TASE: Token Awareness and Structured Evaluation for Multilingual Language Models [8.058965963418785]
TASEは、大規模言語モデルのトークンレベルの情報に対する認識と推論能力を評価するために設計されたベンチマークである。
TASEは、トークン認識と構造理解、中国語、英語、韓国語にまたがる10のタスクを2つの中核カテゴリでカバーしている。
我々は、O3、Claude 4、Gemini 2.5 Pro、DeepSeek-R1を含む30以上の主要な商用およびオープンソースLLMを評価した。
論文 参考訳(メタデータ) (2025-08-07T15:11:17Z) - Large Language Models Acing Chartered Accountancy [0.4711628883579317]
本稿では, LLMの財務的, 法律的, 量的推論能力の評価に特化して設計されたCA-Benについて紹介する。
GPT 4o, LLAMA 3.3 70B, LLAMA 3.1 405B, MISTRAL Large, Claude 3.5 Sonnet, Microsoft Phi 4 の6つの著名なLCMを標準化プロトコルを用いて評価した。
結果から,Claude 3.5 Sonnet と GPT-4o は,特に概念的および法的推論において,他よりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-06-26T06:10:37Z) - XIFBench: Evaluating Large Language Models on Multilingual Instruction Following [59.549015333755186]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる優れた命令追従機能を示している。
既存の評価には、様々な言語的文脈におけるきめ細かい制約分析が欠如している。
我々は,LLMの多言語命令追従能力を評価するための総合ベンチマークであるXIFBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-10T17:07:52Z) - LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models [46.77647640464652]
Chinese Large Language Models (LLMs)は、最近、様々なNLPベンチマークと実世界のアプリケーションで印象的な能力を実証した。
大規模・完全・多目的知識評価ベンチマークLHMKEを提案する。
初等学校から専門的認定試験まで、30の科目をカバーする75の課題に10,465の質問がある。
論文 参考訳(メタデータ) (2024-03-19T10:11:14Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。