論文の概要: Supervised Fine-Tuning LLMs to Behave as Pedagogical Agents in Programming Education
- arxiv url: http://arxiv.org/abs/2502.20527v1
- Date: Thu, 27 Feb 2025 21:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:44:16.512351
- Title: Supervised Fine-Tuning LLMs to Behave as Pedagogical Agents in Programming Education
- Title(参考訳): プログラミング教育における教育エージェントとしてのファインチューニングLDM
- Authors: Emily Ross, Yuval Kansal, Jake Renzella, Alexandra Vassar, Andrew Taylor,
- Abstract要約: 本稿では,プログラミング教育のための微調整型大規模言語モデル(LLM)である GuideLM の開発について述べる。
GuideLM は LLM を利用した教育用 C コンパイラ C コンパイラ (DCC) に統合され,音声による誤り説明を生成する。
基礎となるOpenAIモデルと比較し,各モデル毎の400応答の専門的分析を行った。
その結果, GuideLM と GuideLM-mini は, GPT-4o と比較して, ソクラテス的指導の8%, 語学経済の58%が向上した。
- 参考スコア(独自算出の注目度): 41.69192181482715
- License:
- Abstract: Large language models (LLMs) are increasingly being explored in higher education, yet their effectiveness as teaching agents remains underexamined. In this paper, we present the development of GuideLM, a fine-tuned LLM designed for programming education. GuideLM has been integrated into the Debugging C Compiler (DCC), an educational C compiler that leverages LLMs to generate pedagogically sound error explanations. Previously, DCC relied on off-the-shelf OpenAI models, which, while accurate, often over-assisted students by directly providing solutions despite contrary prompting. To address this, we employed supervised fine-tuning (SFT) on a dataset of 528 student-question/teacher-answer pairs, creating two models: GuideLM and GuideLM-mini, fine-tuned on ChatGPT-4o and 4o-mini, respectively. We conducted an expert analysis of 400 responses per model, comparing their pedagogical effectiveness against base OpenAI models. Our evaluation, grounded in constructivism and cognitive load theory, assessed factors such as conceptual scaffolding, clarity, and Socratic guidance. Results indicate that GuideLM and GuideLM-mini improve pedagogical performance, with an 8% increase in Socratic guidance and a 58% improvement in economy of words compared to GPT-4o. However, this refinement comes at the cost of a slight reduction in general accuracy. While further work is needed, our findings suggest that fine-tuning LLMs with targeted datasets is a promising approach for developing models better suited to educational contexts.
- Abstract(参考訳): 大規模言語モデル (LLM) は、高等教育においてますます研究されているが、教育機関としての効力はいまだに過小評価されている。
本稿では,プログラミング教育用に設計された微調整 LLM である GuideLM の開発について述べる。
GuideLMがDebugging C Compiler (DCC)に統合された。
以前は、DCCは市販のOpenAIモデルに頼っていた。
これを解決するために,528人の生徒と教師と教師のペアのデータセットに教師付き微調整(SFT)を導入し,それぞれChatGPT-4oと4o-miniを微調整したガイドLMとガイドLM-miniの2つのモデルを構築した。
基礎となるOpenAIモデルと比較し,各モデル毎の400応答の専門的分析を行った。
コンストラクティビズムと認知的負荷理論を基礎として,概念的足場,明確性,ソクラテス的指導などの要因を評価した。
その結果, GuideLM と GuideLM-mini は, GPT-4o と比較して, ソクラテス的指導の8%, 語学経済の58%が向上した。
しかし、この改良は一般的な精度をわずかに下げるコストがかかる。
さらなる研究が必要であるが、我々の研究結果は、ターゲットデータセットを用いた微調整LDMが、教育的文脈に適したモデルを開発する上で有望なアプローチであることを示唆している。
関連論文リスト
- The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Towards Pedagogical LLMs with Supervised Fine Tuning for Computing Education [44.17741997623522]
本稿では,大規模言語モデル(LLM)の教師付き微調整について検討し,コンピュータ教育における教育的アライメントを改善する。
このプロジェクトは、プログラミングコースのフォーラムから2500の高品質な質問/回答のペアのプロプライエタリなデータセットを利用した。
論文 参考訳(メタデータ) (2024-11-04T03:20:00Z) - Automated Feedback in Math Education: A Comparative Analysis of LLMs for Open-Ended Responses [0.0]
本研究では,大規模言語モデル(LLM)が数学教育における自動フィードバックを促進する可能性を探究することを目的とする。
我々は,Llamaの数学版であるMistralを採用し,このモデルを用いて,中学校数学問題に対する生徒の回答と教師によるフィードバックのデータセットを活用することによって,学生の反応を評価する。
2人の教師の判断を生かして,評価精度とフィードバックの質を評価する。
論文 参考訳(メタデータ) (2024-10-29T16:57:45Z) - Developing a Tutoring Dialog Dataset to Optimize LLMs for Educational Use [1.2277343096128712]
大規模言語モデル(LLM)は、スケーラブルな教育アプリケーションへの期待を示している。
本研究は,読解問題における1対1の指導に,より小型で手頃なLPMを用いることを検討した。
論文 参考訳(メタデータ) (2024-10-25T00:40:21Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - Rethinking the Roles of Large Language Models in Chinese Grammatical
Error Correction [62.409807640887834]
中国語の文法的誤り訂正(CGEC)は、入力文中のすべての文法的誤りを修正することを目的としている。
CGECの修正器としてのLLMの性能は、課題の焦点が難しいため不満足なままである。
CGECタスクにおけるLCMの役割を再考し、CGECでよりよく活用し、探索できるようにした。
論文 参考訳(メタデータ) (2024-02-18T01:40:34Z) - Pedagogical Alignment of Large Language Models [24.427653091950994]
大規模言語モデル(LLM)は、問題解決プロセスを通じて生徒を導くのではなく、即座に答えを提供する。
本稿では,このアライメント目的を達成するために,LHP(Learning from Human Preferences)アルゴリズムについて検討する。
論文 参考訳(メタデータ) (2024-02-07T16:15:59Z) - Evaluating and Enhancing Large Language Models for Conversational Reasoning on Knowledge Graphs [4.092862870428798]
我々は知識グラフ(KG)を用いた現在最先端の大規模言語モデル(GPT-4)の会話推論能力を評価する。
我々は,KG経路の正確かつ適応的な予測を行うために設計された基底KG推論エージェントであるLLM-ARKを紹介する。
LLaMA-2-7B-ARKは、現在の最先端モデルよりも5.28ポイント優れており、ターゲット@1評価基準では36.39%である。
論文 参考訳(メタデータ) (2023-12-18T15:23:06Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。