論文の概要: Synthesizing High-Quality Programming Tasks with LLM-based Expert and Student Agents
- arxiv url: http://arxiv.org/abs/2504.07655v1
- Date: Thu, 10 Apr 2025 11:08:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:23:32.643861
- Title: Synthesizing High-Quality Programming Tasks with LLM-based Expert and Student Agents
- Title(参考訳): LLMに基づくエキスパートと学生エージェントによる高品質プログラミングタスクの合成
- Authors: Manh Hung Nguyen, Victor-Alexandru Pădurean, Alkis Gotovos, Sebastian Tschiatschek, Adish Singla,
- Abstract要約: PyTaskSynは、プログラミングタスクを最初に生成し、学生に与えられる特定の品質基準を満たすかどうかを決定する新しい合成技術である。
PyTaskSynはベースライン技術と比較してタスク品質を著しく改善し、検証パイプラインにおける各エージェントタイプの重要性を示す。
- 参考スコア(独自算出の注目度): 26.884829816265174
- License:
- Abstract: Generative AI is transforming computing education by enabling the automatic generation of personalized content and feedback. We investigate its capabilities in providing high-quality programming tasks to students. Despite promising advancements in task generation, a quality gap remains between AI-generated and expert-created tasks. The AI-generated tasks may not align with target programming concepts, could be incomprehensible for students to solve, or may contain critical issues such as incorrect tests. Existing works often require interventions from human teachers for validation. We address these challenges by introducing PyTaskSyn, a novel synthesis technique that first generates a programming task and then decides whether it meets certain quality criteria to be given to students. The key idea is to break this process into multiple stages performed by expert and student agents simulated using both strong and weaker generative models. Through extensive evaluation, we show that PyTaskSyn significantly improves task quality compared to baseline techniques and showcases the importance of each specialized agent type in our validation pipeline. Additionally, we conducted user studies using our publicly available web application and show that PyTaskSyn can deliver high-quality programming tasks comparable to expert-designed ones while reducing workload and costs, and being more engaging than programming tasks that are available in online resources.
- Abstract(参考訳): 生成AIは、パーソナライズされたコンテンツとフィードバックの自動生成を可能にすることによって、コンピューティング教育を変革している。
高品質なプログラミングタスクを学生に提供する能力について検討する。
タスク生成の有望な進歩にもかかわらず、AIが生成したタスクと専門家が作成したタスクの間には、品質のギャップが残っている。
AIが生成するタスクは、対象とするプログラミング概念と一致しないかもしれないし、生徒が解決できないかもしれないし、誤ったテストのような重要な問題も含んでいるかもしれない。
既存の作業は、検証のために人間の教師の介入を必要とすることが多い。
PyTaskSynは、プログラミングタスクを最初に生成し、学生に与えられる特定の品質基準を満たすかどうかを判断する新しい合成技法である。
鍵となるアイデアは、このプロセスを専門家と学生エージェントが、より強い生成モデルと弱い生成モデルの両方を用いてシミュレートした複数のステージに分割することである。
PyTaskSynはベースライン技術と比較してタスク品質を著しく改善し,検証パイプラインにおける各エージェントタイプの重要性を示す。
さらに、公開されているWebアプリケーションを用いてユーザスタディを実施し、PyTaskSynは、専門家が設計したタスクに匹敵する高品質なプログラミングタスクを、作業負荷とコストを削減し、オンラインリソースで利用可能なプログラミングタスクよりも魅力的なものにすることができることを示した。
関連論文リスト
- Math Multiple Choice Question Generation via Human-Large Language Model Collaboration [5.081508251092439]
複数選択質問(MCQ)は,学生の知識を評価するための一般的な方法である。
大規模言語モデル(LLM)の最近の進歩は、MCQ生成の自動化への関心を喚起している。
本稿では,LLMと教育者間の協調を支援するためのプロトタイプツールを提案する。
論文 参考訳(メタデータ) (2024-05-01T20:53:13Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - TPTU: Large Language Model-based AI Agents for Task Planning and Tool
Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。
LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。
本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T09:22:03Z) - Multitask Learning with No Regret: from Improved Confidence Bounds to
Active Learning [79.07658065326592]
推定タスクの不確実性の定量化は、オンラインやアクティブな学習など、多くの下流アプリケーションにとって重要な課題である。
タスク間の類似性やタスクの特徴を学習者に提供できない場合、課題設定において新しいマルチタスク信頼区間を提供する。
本稿では,このパラメータを事前に知らないまま,このような改善された後悔を実現する新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-03T13:08:09Z) - Synthesizing a Progression of Subtasks for Block-Based Visual
Programming Tasks [21.33708484899808]
本稿では,その複雑さの観点から,高品質で十分な空間を持つサブタスクの進行を生成する新しい合成アルゴリズムを提案する。
本稿では,Karelプログラミング環境における課題解決のためのAIエージェントの有効性向上のための合成アルゴリズムの有用性を示す。
論文 参考訳(メタデータ) (2023-05-27T16:24:36Z) - Comparing Software Developers with ChatGPT: An Empirical Investigation [0.0]
本稿では,ChatGPTのようなソフトウェア技術者やAIシステムのパフォーマンスを,さまざまな評価指標で比較した実証的研究を行う。
この論文は、さまざまな評価基準を考慮して、ソフトウェアエンジニアとAIベースのソリューションの包括的な比較が、人間と機械のコラボレーションを促進する上で重要であることを示唆している。
論文 参考訳(メタデータ) (2023-05-19T17:25:54Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - From {Solution Synthesis} to {Student Attempt Synthesis} for Block-Based
Visual Programming Tasks [20.64766977405438]
以下に示す課題を中心に、新しいベンチマークであるSeardSynを紹介する。
学生は,一定基準課題に対する生徒の試行を観察した後,新たな目標課題に対する学生の試行を合成する。
この課題は、プログラム合成の課題に似ているが、解法(すなわち、専門家が書くプログラム)の代わりに、ここでのゴールは、学生の試み(すなわち、ある学生が書くであろうプログラム)を合成することである。
論文 参考訳(メタデータ) (2022-05-03T01:32:47Z) - Environment Generation for Zero-Shot Compositional Reinforcement
Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-01-21T21:35:01Z) - Watch-And-Help: A Challenge for Social Perception and Human-AI
Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。
WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。
マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文 参考訳(メタデータ) (2020-10-19T21:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。