Fugu-MT 論文翻訳(概要): StepGrade: Grading Programming Assignments with Context-Aware LLMs

論文の概要: StepGrade: Grading Programming Assignments with Context-Aware LLMs

arxiv url: http://arxiv.org/abs/2503.20851v1
Date: Wed, 26 Mar 2025 17:36:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-28 18:49:11.264961
Title: StepGrade: Grading Programming Assignments with Context-Aware LLMs
Title（参考訳）: StepGrade: コンテキスト対応LLMによるグラディングプログラミングアサインメント
Authors: Mohammad Akyash, Kimia Zamiri Azar, Hadi Mardani Kamali,
Abstract要約: 本研究は,大規模言語モデル(LLM)を駆使したChain-of-Thought(CoT)の利用を探求するStepGradeを紹介する。限定的および表面レベルの出力を提供する通常のプロンプトとは異なり、CoTプロンプトは相互接続されたグレーティング基準をステップバイステップで推論することを可能にする。 StepGradeの効率を実証的に検証するため,3つの難易度にまたがる30のPythonプログラムをケーススタディとして実施した。
参考スコア（独自算出の注目度）: 0.6725011823614421
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Grading programming assignments is a labor-intensive and time-consuming process that demands careful evaluation across multiple dimensions of the code. To overcome these challenges, automated grading systems are leveraged to enhance efficiency and reduce the workload on educators. Traditional automated grading systems often focus solely on correctness, failing to provide interpretable evaluations or actionable feedback for students. This study introduces StepGrade, which explores the use of Chain-of-Thought (CoT) prompting with Large Language Models (LLMs) as an innovative solution to address these challenges. Unlike regular prompting, which offers limited and surface-level outputs, CoT prompting allows the model to reason step-by-step through the interconnected grading criteria, i.e., functionality, code quality, and algorithmic efficiency, ensuring a more comprehensive and transparent evaluation. This interconnectedness necessitates the use of CoT to systematically address each criterion while considering their mutual influence. To empirically validate the efficiency of StepGrade, we conducted a case study involving 30 Python programming assignments across three difficulty levels (easy, intermediate, and advanced). The approach is validated against expert human evaluations to assess its consistency, accuracy, and fairness. Results demonstrate that CoT prompting significantly outperforms regular prompting in both grading quality and interpretability. By reducing the time and effort required for manual grading, this research demonstrates the potential of GPT-4 with CoT prompting to revolutionize programming education through scalable and pedagogically effective automated grading systems.
Abstract（参考訳）: グラディングプログラミングの割り当ては、労働集約的で時間を要するプロセスであり、コードの複数次元にわたって慎重に評価する必要がある。これらの課題を克服するために、自動化グレーティングシステムは、効率を高め、教育者の作業負荷を減らすために活用される。従来の自動階調システムは正当性のみに重点を置いており、解釈可能な評価や行動可能なフィードバックを学生に提供しなかった。本稿では,これらの課題に対処する革新的なソリューションとして,大規模言語モデル(LLM)の促進を目的としたChain-of-Thought(CoT)の利用を探求するStepGradeを紹介する。限定的かつ表面レベルの出力を提供する通常のプロンプトとは異なり、CoTプロンプトは、相互接続されたグレーティング基準、すなわち機能、コード品質、アルゴリズム効率を段階的に推論し、より包括的で透明な評価を保証する。この相互接続性は、相互の影響を考慮して各基準に体系的に対処するためにCoTを使用する必要がある。 StepGradeの効率を実証的に検証するため,3つの難易度(易易度,中間度,高度度)にわたるPythonプログラムの30の割り当てをケーススタディとして実施した。このアプローチは、その一貫性、正確性、公平性を評価するために、専門家による評価に対して検証される。その結果、CoTのプロンプトは、グレーディング品質と解釈可能性の両方において、レギュラープロンプトよりも大幅に優れていた。本研究は,手動グルーピングに必要な時間と労力を削減することにより,CoTによるGPT-4の可能性を実証し,スケーラブルで教育的に効果的な自動グルーピングシステムを通じて,プログラミング教育に革命をもたらすことを示唆する。

関連論文リスト

Ratas framework: A comprehensive genai-based approach to rubric-based marking of real-world textual exams [3.4132239125074206]
RATAS(Rubric Automated Tree-based Answer Scoring)は、テキスト応答のルーリックベースのグレーディングに最先端の生成AIモデルを活用する新しいフレームワークである。 RATASは、幅広いグレーディングルーリックをサポートし、主観的評価を可能にし、割り当てられたスコアに対して構造化された説明可能な論理を生成するように設計されている。
論文参考訳（メタデータ） (2025-05-27T22:17:27Z)
Probing the Unknown: Exploring Student Interactions with Probeable Problems at Scale in Introductory Programming [4.1153199495993364]
本研究では、意図的な曖昧さや不完全な仕様を持つ自動段階的タスクであるProbeable Problems'の使用について検討する。このような問題に対して、学生はテストのインプットを提出するか、あるいは「調査」し、実施前の要件を明らかにする必要がある。コーディング前に期待される振る舞いを徹底的に探求するなど、体系的な戦略は、間違ったコードへの提出を減らし、コースの成功と相関する結果となった。
論文参考訳（メタデータ） (2025-04-16T02:50:00Z)
Synthesizing High-Quality Programming Tasks with LLM-based Expert and Student Agents [26.884829816265174]
PyTaskSynは、プログラミングタスクを最初に生成し、学生に与えられる特定の品質基準を満たすかどうかを決定する新しい合成技術である。 PyTaskSynはベースライン技術と比較してタスク品質を著しく改善し、検証パイプラインにおける各エージェントタイプの重要性を示す。
論文参考訳（メタデータ） (2025-04-10T11:08:39Z)
CoTAL: Human-in-the-Loop Prompt Engineering, Chain-of-Thought Reasoning, and Active Learning for Generalizable Formative Assessment Scoring [2.249916681499244]
チェーン・オブ・ソート(CoT)のような手法は、教師が科学の形式的評価を格付けできるようにする。これらの手法が複数の領域でキュリキュラにまたがる一般化の程度は、まだほとんど証明されていない。書式評価評価のための LLM ベースのアプローチである Chain-of-Thought Prompting + Active Learning (CoTAL) を導入する。
論文参考訳（メタデータ） (2025-04-03T06:53:34Z)
Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.94905631175209]
我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文参考訳（メタデータ） (2025-03-21T17:59:55Z)
Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-01-18T15:38:03Z)
Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文参考訳（メタデータ） (2024-10-10T17:14:36Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Efficient Test-Time Prompt Tuning for Vision-Language Models [41.90997623029582]
Self-TPTは、効率的なテストタイムプロンプトチューニングにセルフ教師付き学習を活用するフレームワークである。本稿では,Self-TPTが推論コストを大幅に削減するだけでなく,最先端の性能も向上することを示す。
論文参考訳（メタデータ） (2024-08-11T13:55:58Z)
AlphaMath Almost Zero: Process Supervision without Process [6.318873143509028]
我々はモンテカルロ木探索(MCTS)を活用することによってプロセスアノテーションの必要性を回避できる革新的なフレームワークAlphaMathを提案する。このフレームワークは、その数学的推論を自律的に強化する、よく訓練されたLLMの可能性を解き放つことに焦点を当てている。ドメイン内データセットとドメイン外データセットの両方の実験結果から,GPT-4や人手によるプロセス監視がなくても,AlphaMathフレームワークは従来の最先端手法と同等あるいは優れた結果が得られることが示された。
論文参考訳（メタデータ） (2024-05-06T15:20:30Z)
Overcoming Pitfalls in Graph Contrastive Learning Evaluation: Toward Comprehensive Benchmarks [60.82579717007963]
本稿では,グラフコントラスト学習(GCL)手法の有効性,一貫性,全体的な能力をより正確に評価するために,拡張された評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-24T01:47:56Z)
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文参考訳（メタデータ） (2023-05-24T10:08:04Z)
NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。 NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文参考訳（メタデータ） (2022-11-15T18:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。