論文の概要: StepGrade: Grading Programming Assignments with Context-Aware LLMs
- arxiv url: http://arxiv.org/abs/2503.20851v1
- Date: Wed, 26 Mar 2025 17:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:54:03.108044
- Title: StepGrade: Grading Programming Assignments with Context-Aware LLMs
- Title(参考訳): StepGrade: コンテキスト対応LLMによるグラディングプログラミングアサインメント
- Authors: Mohammad Akyash, Kimia Zamiri Azar, Hadi Mardani Kamali,
- Abstract要約: 本研究は,大規模言語モデル(LLM)を駆使したChain-of-Thought(CoT)の利用を探求するStepGradeを紹介する。
限定的および表面レベルの出力を提供する通常のプロンプトとは異なり、CoTプロンプトは相互接続されたグレーティング基準をステップバイステップで推論することを可能にする。
StepGradeの効率を実証的に検証するため,3つの難易度にまたがる30のPythonプログラムをケーススタディとして実施した。
- 参考スコア(独自算出の注目度): 0.6725011823614421
- License:
- Abstract: Grading programming assignments is a labor-intensive and time-consuming process that demands careful evaluation across multiple dimensions of the code. To overcome these challenges, automated grading systems are leveraged to enhance efficiency and reduce the workload on educators. Traditional automated grading systems often focus solely on correctness, failing to provide interpretable evaluations or actionable feedback for students. This study introduces StepGrade, which explores the use of Chain-of-Thought (CoT) prompting with Large Language Models (LLMs) as an innovative solution to address these challenges. Unlike regular prompting, which offers limited and surface-level outputs, CoT prompting allows the model to reason step-by-step through the interconnected grading criteria, i.e., functionality, code quality, and algorithmic efficiency, ensuring a more comprehensive and transparent evaluation. This interconnectedness necessitates the use of CoT to systematically address each criterion while considering their mutual influence. To empirically validate the efficiency of StepGrade, we conducted a case study involving 30 Python programming assignments across three difficulty levels (easy, intermediate, and advanced). The approach is validated against expert human evaluations to assess its consistency, accuracy, and fairness. Results demonstrate that CoT prompting significantly outperforms regular prompting in both grading quality and interpretability. By reducing the time and effort required for manual grading, this research demonstrates the potential of GPT-4 with CoT prompting to revolutionize programming education through scalable and pedagogically effective automated grading systems.
- Abstract(参考訳): グラディングプログラミングの割り当ては、労働集約的で時間を要するプロセスであり、コードの複数次元にわたって慎重に評価する必要がある。
これらの課題を克服するために、自動化グレーティングシステムは、効率を高め、教育者の作業負荷を減らすために活用される。
従来の自動階調システムは正当性のみに重点を置いており、解釈可能な評価や行動可能なフィードバックを学生に提供しなかった。
本稿では,これらの課題に対処する革新的なソリューションとして,大規模言語モデル(LLM)の促進を目的としたChain-of-Thought(CoT)の利用を探求するStepGradeを紹介する。
限定的かつ表面レベルの出力を提供する通常のプロンプトとは異なり、CoTプロンプトは、相互接続されたグレーティング基準、すなわち機能、コード品質、アルゴリズム効率を段階的に推論し、より包括的で透明な評価を保証する。
この相互接続性は、相互の影響を考慮して各基準に体系的に対処するためにCoTを使用する必要がある。
StepGradeの効率を実証的に検証するため,3つの難易度(易易度,中間度,高度度)にわたるPythonプログラムの30の割り当てをケーススタディとして実施した。
このアプローチは、その一貫性、正確性、公平性を評価するために、専門家による評価に対して検証される。
その結果、CoTのプロンプトは、グレーディング品質と解釈可能性の両方において、レギュラープロンプトよりも大幅に優れていた。
本研究は,手動グルーピングに必要な時間と労力を削減することにより,CoTによるGPT-4の可能性を実証し,スケーラブルで教育的に効果的な自動グルーピングシステムを通じて,プログラミング教育に革命をもたらすことを示唆する。
関連論文リスト
- A Zero-Shot LLM Framework for Automatic Assignment Grading in Higher Education [0.6141800972050401]
ゼロショット大言語モデル(LLM)に基づく自動アサインメントグレーディング(AAG)システムを提案する。
このフレームワークはプロンプトエンジニアリングを利用して、追加のトレーニングや微調整を必要とせず、計算と説明の両方の学生の反応を評価する。
AAGシステムは、個々の強みと改善の領域を強調した調整されたフィードバックを提供し、それによって学生の学習結果を向上する。
論文 参考訳(メタデータ) (2025-01-24T08:01:41Z) - Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。
実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-18T15:38:03Z) - A Sequential Optimal Learning Approach to Automated Prompt Engineering in Large Language Models [14.483240353801074]
本稿では,自動プロンプトエンジニアリングのための最適学習フレームワークを提案する。
限られた評価予算を効率的に割り当てつつ、効果的なプロンプト機能を逐次識別するように設計されている。
私たちのフレームワークは、より広い範囲のアプリケーションに自動プロンプトエンジニアリングをデプロイするためのソリューションを提供します。
論文 参考訳(メタデータ) (2025-01-07T03:51:10Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Efficient Test-Time Prompt Tuning for Vision-Language Models [41.90997623029582]
Self-TPTは、効率的なテストタイムプロンプトチューニングにセルフ教師付き学習を活用するフレームワークである。
本稿では,Self-TPTが推論コストを大幅に削減するだけでなく,最先端の性能も向上することを示す。
論文 参考訳(メタデータ) (2024-08-11T13:55:58Z) - Overcoming Pitfalls in Graph Contrastive Learning Evaluation: Toward
Comprehensive Benchmarks [60.82579717007963]
本稿では,グラフコントラスト学習(GCL)手法の有効性,一貫性,全体的な能力をより正確に評価するために,拡張された評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-24T01:47:56Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。