論文の概要: Enhancing Large Language Models for Automated Homework Assessment in Undergraduate Circuit Analysis
- arxiv url: http://arxiv.org/abs/2511.18221v1
- Date: Sat, 22 Nov 2025 23:43:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.702536
- Title: Enhancing Large Language Models for Automated Homework Assessment in Undergraduate Circuit Analysis
- Title(参考訳): 大学生の回路分析における宿題自動評価のための大規模言語モデルの強化
- Authors: Liangliang Chen, Huiru Xie, Zhihao Qin, Yiming Guo, Jacqueline Rohde, Ying Zhang,
- Abstract要約: 我々は,複数ステップのプロンプト,文脈データ拡張,ターゲットとなるヒントの取り込みにより,GPT-4oの性能を向上させる。
GPT-4oの正しい応答率は、強化されたプロンプトと拡張データを適用した後、74.71%から97.70%に増加する。
- 参考スコア(独自算出の注目度): 5.995976425903575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research full paper presents an enhancement pipeline for large language models (LLMs) in assessing homework for an undergraduate circuit analysis course, aiming to improve LLMs' capacity to provide personalized support to electrical engineering students. Existing evaluations have demonstrated that GPT-4o possesses promising capabilities in assessing student homework in this domain. Building on these findings, we enhance GPT-4o's performance through multi-step prompting, contextual data augmentation, and the incorporation of targeted hints. These strategies effectively address common errors observed in GPT-4o's responses when using simple prompts, leading to a substantial improvement in assessment accuracy. Specifically, the correct response rate for GPT-4o increases from 74.71% to 97.70% after applying the enhanced prompting and augmented data on entry-level circuit analysis topics. This work lays a foundation for the effective integration of LLMs into circuit analysis instruction and, more broadly, into engineering education.
- Abstract(参考訳): 本研究では,LLMの能力向上と電気工学の学生へのパーソナライズ支援を目的とした,大規模言語モデル(LLM)のための拡張パイプラインを提案する。
既存の評価では、GPT-4oは、この領域の学生の宿題を評価する上で有望な能力を持っていることが示されている。
これらの結果に基づいて,多段階のプロンプト,文脈データ拡張,ターゲットヒントの組み込みによるGPT-4oの性能向上を図る。
これらの戦略は、単純なプロンプトを使用する場合、GPT-4oの応答で観測される一般的なエラーに効果的に対処し、評価精度が大幅に向上した。
具体的には、GPT-4oの正しい応答速度は、エントリレベルの回路分析トピックのプロンプトと拡張データを適用した後、74.71%から97.70%に向上する。
この研究は、LLMの回路解析教育への効果的な統合の基礎を築き、より広範に工学教育に組み入れた。
関連論文リスト
- Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise [41.16092952642748]
本研究では,Large Language Models (LLMs) で使用されているれんがを精製することにより,AES(Automated Scoring)を向上する可能性について検討する。
GPT-4.1、Gemini-2.5-Pro、Qwen-3-Next-80B-A3B-Instructによるデータセットの実験では、最大0.19と0.47の改善が得られた。
論文 参考訳(メタデータ) (2025-10-10T06:05:38Z) - Benchmarking Large Language Models on Homework Assessment in Circuit Analysis [5.040027178589699]
大規模言語モデル(LLM)は、コード開発、ロボティクス、金融、教育など、様々な分野に革命をもたらす可能性がある。
本稿では,LLMを工学教育に活用する方法を検討する。
我々は, GPT-3.5 Turbo, GPT-4o, Llama 3 70B など,様々な LLM の能力のベンチマークを行った。
論文 参考訳(メタデータ) (2025-06-05T15:16:30Z) - REARANK: Reasoning Re-ranking Agent via Reinforcement Learning [69.8397511935806]
本稿では,大規模言語モデル(LLM)に基づくリストワイズ推論エージェントREARANKを提案する。
REARANKは、リランク前の明確な理由と、パフォーマンスと解釈性の両方を大幅に改善した。
論文 参考訳(メタデータ) (2025-05-26T14:31:48Z) - Empirical evaluation of LLMs in predicting fixes of Configuration bugs in Smart Home System [0.0]
本研究では,スマートホームシステムにおける構成バグの修正予測におけるLarge Language Models (LLMs)の有効性を評価する。
この研究は、GPT-4、GPT-4o(GPT-4 Turbo)、Claude 3.5 Sonnetの3つの著名なLCMを分析した。
論文 参考訳(メタデータ) (2025-02-16T02:11:36Z) - CIRCUIT: A Benchmark for Circuit Interpretation and Reasoning Capabilities of LLMs [15.34624510334892]
大規模言語モデル(LLM)の役割はアナログ回路設計において広く研究されていない。
CIRCUITデータセットを作成し、510組の質問応答ペアをアナログ回路関連項目の様々なレベルに分散させた。
我々のデータセット上で最高の性能モデルであるGPT-4oは、最終数値で評価すると48.04%の精度が得られる。
論文 参考訳(メタデータ) (2025-02-11T21:53:48Z) - InFoBench: Evaluating Instruction Following Ability in Large Language
Models [57.27152890085759]
Decomposed Requirements following Ratio (DRFR) は、命令に従うLarge Language Models (LLM) 能力を評価するための新しい指標である。
InFoBenchは500の多様な命令と2250の分解された質問を複数の制約カテゴリに分けたベンチマークである。
論文 参考訳(メタデータ) (2024-01-07T23:01:56Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - Performance of ChatGPT on the US Fundamentals of Engineering Exam:
Comprehensive Assessment of Proficiency and Potential Implications for
Professional Environmental Engineering Practice [0.0]
本研究は, GPT-4 モデルである ChatGPT を用いて, 工学基礎(FE) 環境評価における良好な性能を実現することの実現可能性と有効性について検討する。
この結果は、ChatGPTモデルの連続反復における数学的能力の顕著な改善を反映し、複雑な工学的問題を解く可能性を示している。
論文 参考訳(メタデータ) (2023-04-20T16:54:34Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。