論文の概要: SCALEFeedback: A Large-Scale Dataset of Synthetic Computer Science Assignments for LLM-generated Educational Feedback Research
- arxiv url: http://arxiv.org/abs/2508.05953v1
- Date: Fri, 08 Aug 2025 02:37:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.05128
- Title: SCALEFeedback: A Large-Scale Dataset of Synthetic Computer Science Assignments for LLM-generated Educational Feedback Research
- Title(参考訳): SCALEFeedback: LLMによる教育フィードバック研究のためのコンピュータ科学の大規模データセット
- Authors: Keyang Qian, Kaixun Yang, Wei Dai, Flora Jin, Yixin Cheng, Rui Guan, Sadia Nawaz, Zachari Swiecki, Guanliang Chen, Lixiang Yan, Dragan Gašević,
- Abstract要約: 現在、学生の課題に関する大規模なオープンソースデータセットは存在せず、詳細な課題記述、ルーブリック、学生への提出が含まれている。
我々はLLM生成教育フィードバック研究(SCALEFeedback)のための大規模コンピュータサイエンス・アサインメントデータセットを構築した。
オープンソースのデータセットには、59の大学レベルのコンピュータサイエンスコースで155の課題にまたがる1万の合成学生の応募が含まれている。
- 参考スコア(独自算出の注目度): 5.838566576554449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using LLMs to give educational feedback to students for their assignments has attracted much attention in the AI in Education field. Yet, there is currently no large-scale open-source dataset of student assignments that includes detailed assignment descriptions, rubrics, and student submissions across various courses. As a result, research on generalisable methodology for automatic generation of effective and responsible educational feedback remains limited. In the current study, we constructed a large-scale dataset of Synthetic Computer science Assignments for LLM-generated Educational Feedback research (SCALEFeedback). We proposed a Sophisticated Assignment Mimicry (SAM) framework to generate the synthetic dataset by one-to-one LLM-based imitation from real assignment descriptions, student submissions to produce their synthetic versions. Our open-source dataset contains 10,000 synthetic student submissions spanning 155 assignments across 59 university-level computer science courses. Our synthetic submissions achieved BERTScore F1 0.84, PCC of 0.62 for assignment marks and 0.85 for length, compared to the corresponding real-world assignment dataset, while ensuring perfect protection of student private information. All these results of our SAM framework outperformed results of a naive mimicry method baseline. The LLM-generated feedback for our synthetic assignments demonstrated the same level of effectiveness compared to that of real-world assignment dataset. Our research showed that one-to-one LLM imitation is a promising method for generating open-source synthetic educational datasets that preserve the original dataset's semantic meaning and student data distribution, while protecting student privacy and institutional copyright. SCALEFeedback enhances our ability to develop LLM-based generalisable methods for offering high-quality, automated educational feedback in a scalable way.
- Abstract(参考訳): LLMを使って学生に課題に対する教育的フィードバックを与えることは、教育分野におけるAIに大きな注目を集めている。
しかし、現在、学生の課題に関する大規模なオープンソースデータセットは存在せず、様々なコースにわたる詳細な課題記述、ルーリック、学生への提出が含まれている。
その結果、効果的で責任ある教育的フィードバックの自動生成のための一般的な方法論に関する研究は依然として限られている。
本研究では,LLM生成教育フィードバック研究(SCALEFeedback)のための大規模コンピュータサイエンス・アサインメントデータセットを構築した。
我々は,Sophisticated Assignment Mimicry (SAM) フレームワークを提案し,実際の代入記述から1対1のLLMを模倣した合成データセットを生成し,その合成版を作成する。
オープンソースのデータセットには、59の大学レベルのコンピュータサイエンスコースで155の課題にまたがる1万の合成学生の応募が含まれている。
実世界の課題データセットと比較して, BERTScore F1 0.84, PCC 0.62, 長さ 0.85 を達成し, 学生の個人情報の完全保護を実現した。
これらすべてのSAMフレームワークの結果は、単純模倣法ベースラインの結果よりも優れていた。
LLMによる合成代入のフィードバックは実世界の代入データセットと同等の効果を示した。
本研究は,学生のプライバシーと機関の著作権を保護しつつ,原データセットの意味的意味と学生データ分布を保存したオープンソース総合学習データセットを作成する上で,一対一のLCM模倣が有望な方法であることを示した。
SCALEFeedbackは、スケーラブルな方法で高品質で自動化された教育フィードバックを提供するLLMベースの汎用メソッドを開発する能力を向上します。
関連論文リスト
- FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z) - Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - LLM-itation is the Sincerest Form of Data: Generating Synthetic Buggy Code Submissions for Computing Education [5.421088637597145]
大規模言語モデル(LLM)は、大規模でプライバシを保存する合成データを作成するための有望なアプローチを提供する。
本研究は,GPT-4oを用いた導入プログラミング演習のための合成バグギーコード生成について検討する。
合成データと実生データ間のテストケース故障の分布を比較し,実生データを模倣した合成データの精度を解析した。
論文 参考訳(メタデータ) (2024-11-01T00:24:59Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。
実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。
我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-09-18T13:20:23Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。
バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。