論文の概要: Benchmarking Large Language Models on Homework Assessment in Circuit Analysis
- arxiv url: http://arxiv.org/abs/2506.06390v1
- Date: Thu, 05 Jun 2025 15:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.25179
- Title: Benchmarking Large Language Models on Homework Assessment in Circuit Analysis
- Title(参考訳): 回路解析における宿題評価における大規模言語モデルのベンチマーク
- Authors: Liangliang Chen, Zhihao Qin, Yiming Guo, Jacqueline Rohde, Ying Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、コード開発、ロボティクス、金融、教育など、様々な分野に革命をもたらす可能性がある。
本稿では,LLMを工学教育に活用する方法を検討する。
我々は, GPT-3.5 Turbo, GPT-4o, Llama 3 70B など,様々な LLM の能力のベンチマークを行った。
- 参考スコア(独自算出の注目度): 5.040027178589699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have the potential to revolutionize various fields, including code development, robotics, finance, and education, due to their extensive prior knowledge and rapid advancements. This paper investigates how LLMs can be leveraged in engineering education. Specifically, we benchmark the capabilities of different LLMs, including GPT-3.5 Turbo, GPT-4o, and Llama 3 70B, in assessing homework for an undergraduate-level circuit analysis course. We have developed a novel dataset consisting of official reference solutions and real student solutions to problems from various topics in circuit analysis. To overcome the limitations of image recognition in current state-of-the-art LLMs, the solutions in the dataset are converted to LaTeX format. Using this dataset, a prompt template is designed to test five metrics of student solutions: completeness, method, final answer, arithmetic error, and units. The results show that GPT-4o and Llama 3 70B perform significantly better than GPT-3.5 Turbo across all five metrics, with GPT-4o and Llama 3 70B each having distinct advantages in different evaluation aspects. Additionally, we present insights into the limitations of current LLMs in several aspects of circuit analysis. Given the paramount importance of ensuring reliability in LLM-generated homework assessment to avoid misleading students, our results establish benchmarks and offer valuable insights for the development of a reliable, personalized tutor for circuit analysis -- a focus of our future work. Furthermore, the proposed evaluation methods can be generalized to a broader range of courses for engineering education in the future.
- Abstract(参考訳): 大きな言語モデル(LLM)は、コード開発、ロボティクス、金融、教育など様々な分野に革命をもたらす可能性がある。
本稿では,LLMを工学教育に活用する方法を検討する。
具体的には,GPT-3.5 Turbo, GPT-4o, Llama 370B など,学部レベルの回路解析コースの宿題の評価において,様々な LLM の能力をベンチマークする。
我々は,回路解析における諸問題に対する公式参照解と実学生解からなる新しいデータセットを開発した。
現在のLLMにおける画像認識の限界を克服するため、データセットのソリューションはLaTeXフォーマットに変換される。
このデータセットを使用して、プロンプトテンプレートは、完全性、メソッド、最終回答、算術誤差、ユニットという5つの学生ソリューションのメトリクスをテストするように設計されている。
その結果, GPT-4o と Llama 3 70B は, GPT-4o と Llama 3 70B の5つの指標で GPT-3.5 Turbo よりも有意に優れた性能を示した。
さらに,回路解析のいくつかの側面において,現在のLCMの限界について考察する。
学生の誤解を招くのを避けるため、LCM生成した宿題評価において信頼性を確保することが最重要となることを踏まえ、我々の結果はベンチマークを確立し、回路分析のための信頼性の高いパーソナライズされたチューターの開発に貴重な洞察を与える。
さらに,提案手法は将来,工学教育の幅広いコースに一般化できる。
関連論文リスト
- Evaluating the Performance of Large Language Models in Competitive Programming: A Multi-Year, Multi-Grade Analysis [0.0]
本研究は,ルーマニア語インフォマティクス・オリンピアード(Olympiad)における競合プログラミング問題の解法における大規模言語モデル(LLM)の性能について考察する。
2002年から2023年までの304の課題からなるデータセットを収集,分析した。
解析結果から,LLMの性能はグレードや問題の種類によって大きく異なっていた。
論文 参考訳(メタデータ) (2024-08-31T10:39:54Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.056044348209483]
クラスやメソッドなどのコードモジュールのバグを特定するのに不可欠なユニットテストは、時間的制約のため、開発者によって無視されることが多い。
GPTやMistralのようなLarge Language Models (LLM)は、テスト生成を含むソフトウェア工学における約束を示す。
論文 参考訳(メタデータ) (2024-06-28T20:38:41Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。
本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。
我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。
また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z) - Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。
高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。
さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文 参考訳(メタデータ) (2023-05-24T11:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。