論文の概要: Narrowing the Gap: Supervised Fine-Tuning of Open-Source LLMs as a Viable Alternative to Proprietary Models for Pedagogical Tools
- arxiv url: http://arxiv.org/abs/2507.05305v1
- Date: Mon, 07 Jul 2025 08:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.254319
- Title: Narrowing the Gap: Supervised Fine-Tuning of Open-Source LLMs as a Viable Alternative to Proprietary Models for Pedagogical Tools
- Title(参考訳): ギャップを狭める: Pedagogical Toolsのプロプライエタリモデルの代替手段としてのオープンソースLCMの細調整
- Authors: Lorenzo Lee Solano, Charles Koutcheme, Juho Leinonen, Alexandra Vassar, Jake Renzella,
- Abstract要約: この研究は、Supervised Fine-Tuning (SFT)を通じて強化された、より小型で専門化された言語モデルが、教育ツールのより実用的な代替手段であることを示す。
そこで本研究では,CS1/2(Real Introductory Programming)とCS1/2(Real Introductory Programming)を併用した,4万個のCコンパイラのエラー説明データセットを構築した。
以上の結果から,SFTは小型モデルの教育的品質を著しく向上させ,より大きなモデルに匹敵する性能を実現している。
- 参考スコア(独自算出の注目度): 42.84219003918423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frontier Large language models (LLMs) like ChatGPT and Gemini can decipher cryptic compiler errors for novice programmers, but their computational scale, cost, and tendency to over-assist make them problematic for widespread pedagogical adoption. This work demonstrates that smaller, specialised language models, enhanced via Supervised Fine-Tuning (SFT), present a more viable alternative for educational tools. We utilise a new dataset of 40,000 C compiler error explanations, derived from real introductory programming (CS1/2) student-generated programming errors, which we used to fine-tune three open-source models: Qwen3-4B, Llama-3.1-8B, and Qwen3-32B. We performed a dual evaluation, combining expert human reviews with a large-scale automated analysis of 8,000 responses using a validated LLM-as-judge ensemble. Our results show that SFT significantly boosts the pedagogical quality of smaller models, achieving performance comparable to much larger models. We analyse the trade-offs between model size and quality, confirming that fine-tuning compact, efficient models on high-quality, domain-specific data is a potent strategy for creating specialised models to drive educational tools. We provide a replicable methodology to foster broader access to generative AI capabilities in educational contexts.
- Abstract(参考訳): 先進的な大規模言語モデル(LLM)であるChatGPTやGeminiは、初心者プログラマの暗号コンパイラのエラーを解読するが、その計算規模、コスト、過度な攻撃の傾向は、広く教育的採用に問題を引き起こす。
この研究は、Supervised Fine-Tuning (SFT)を通じて強化された、より小型で専門化された言語モデルが、教育ツールのより実用的な代替手段であることを示す。
我々は,3つのオープンソースモデル(Qwen3-4B,Llama-3.1-8B,Qwen3-32B)の微調整に使用した,CS1/2(Real Introductory Programming)の学生生成プログラムエラーから得られた4万のCコンパイラエラー説明のデータセットを利用する。
LLM-as-judge アンサンブルを用いて,専門家によるレビューと8,000件の回答の大規模自動分析を併用して二重評価を行った。
以上の結果から,SFTは小型モデルの教育的品質を著しく向上させ,より大きなモデルに匹敵する性能を実現している。
モデルのサイズと品質のトレードオフを分析し、高品質なドメイン固有データに基づく微調整のコンパクトで効率的なモデルが、教育ツールを駆動する特殊なモデルを作成するための強力な戦略であることを確認します。
我々は、教育の文脈において、生成的AI能力への幅広いアクセスを促進するために、複製可能な方法論を提供する。
関連論文リスト
- Distillation and Refinement of Reasoning in Small Language Models for Document Re-ranking [21.23826888841565]
本稿では、推論集約型文書ランキングのための小言語モデルをトレーニングするための新しいアプローチを提案する。
我々は Web データと教師 LLM を用いて,関連性の説明付き高品質な学習例を自動生成する。
私たちのモデルは、他のアプローチよりもはるかに少ないパラメータを使用しながら、リーダーボードで3位です。
論文 参考訳(メタデータ) (2025-04-04T21:27:48Z) - Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。
提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文 参考訳(メタデータ) (2024-12-27T04:37:06Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Exploring Combinatorial Problem Solving with Large Language Models: A Case Study on the Travelling Salesman Problem Using GPT-3.5 Turbo [4.543552585804991]
旅行セールスマン問題(TSP)の解決に向けた大規模言語モデル(LLM)の可能性について検討する。
GPT-3.5 Turboを微調整して特定の問題サイズを解き、様々なインスタンスサイズを用いてテストした。
微調整されたモデルでは、トレーニングインスタンスと大きさが同じ問題に対して有望な性能を示し、より大きな問題に対してよく一般化された。
論文 参考訳(メタデータ) (2024-05-03T10:54:14Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Teaching Language Models to Self-Improve through Interactive Demonstrations [83.9421355808174]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。