論文の概要: Scratch Copilot Evaluation: Assessing AI-Assisted Creative Coding for
Families
- arxiv url: http://arxiv.org/abs/2305.10417v1
- Date: Wed, 17 May 2023 17:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 14:21:16.853814
- Title: Scratch Copilot Evaluation: Assessing AI-Assisted Creative Coding for
Families
- Title(参考訳): scratch copilot evaluation: 家族のためのai支援クリエイティブコーディングの評価
- Authors: Stefania Druga and Nancy Otero
- Abstract要約: 本研究では,Scratch を用いた家族の創造的コーディングを支援するための大規模言語モデル (LLM) の可能性を探る。
LLMは、様々なタスクや評価基準において、全体の成功率を80%以上達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: How can AI enhance creative coding experiences for families? This study
explores the potential of large language models (LLMs) in helping families with
creative coding using Scratch. Based on our previous user study involving a
prototype AI assistant, we devised three evaluation scenarios to determine if
LLMs could help families comprehend game code, debug programs, and generate new
ideas for future projects. We utilized 22 Scratch projects for each scenario
and generated responses from LLMs with and without practice tasks, resulting in
120 creative coding support scenario datasets. In addition, the authors
independently evaluated their precision, pedagogical value, and age-appropriate
language. Our findings show that LLMs achieved an overall success rate of more
than 80\% on the different tasks and evaluation criteria. This research offers
valuable information on using LLMs for creative family coding and presents
design guidelines for future AI-supported coding applications. Our evaluation
framework, together with our labeled evaluation data, is publicly available.
- Abstract(参考訳): AIは家族のための創造的なコーディング体験をどのように強化するか?
本研究では,Scratch を用いた家族の創造的コーディングを支援するための大規模言語モデル (LLM) の可能性を探る。
プロトタイプAIアシスタントを含むこれまでのユーザ調査に基づいて、3つの評価シナリオを考案し、LLMが家族がゲームコードを理解し、プログラムをデバッグし、将来のプロジェクトのための新しいアイデアを生成するのに役立つかどうかを判断した。
シナリオ毎に22のScratchプロジェクトを利用して,LLMから実行タスクと不要なレスポンスを生成し,120のクリエイティブコーディングサポートシナリオデータセットを作成した。
さらに, 著者らは, 精度, 教育的価値, 年齢に応じた言語を独立に評価した。
以上の結果から,LLMはタスクや評価基準の相違により,全体の成功率を80%以上達成できた。
この研究は、創造的なファミリーコーディングにLLMを使うことに関する貴重な情報を提供し、将来のAI支援コーディングアプリケーションの設計ガイドラインを提示する。
評価フレームワークはラベル付き評価データとともに公開されています。
関連論文リスト
- Analyzing LLM Usage in an Advanced Computing Class in India [1.6612806983579371]
既存の研究は主に、導入プログラミングの文脈における大規模言語モデル(LLM)の影響に焦点を当てている。
本研究は、先進的なコンピューティングコースにおいて、学生とLLM間の生の相互作用を包括的に分析する。
論文 参考訳(メタデータ) (2024-04-06T12:06:56Z) - InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiCoder-Evalは、コードのQAベンチマークである。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiCoder-Eval 上で 80 以上のコード LLM に対して,系統的な評価を行い,一連の知見を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - KIWI: A Dataset of Knowledge-Intensive Writing Instructions for
Answering Research Questions [63.307317584926146]
ユーザ命令に従うように適応された大規模言語モデル(LLM)は、現在では会話エージェントとして広くデプロイされている。
そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。
我々は、科学領域における知識集約的な記述命令のデータセットKIWIを構築した。
論文 参考訳(メタデータ) (2024-03-06T17:16:44Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming [12.355284125578342]
大規模言語モデル(LLM)は、現代のソフトウェア開発の焦点となっている。
LLMは、インテリジェントでチャット駆動のプログラミングアシスタントとして機能することで、開発者の生産性を大幅に向上する可能性がある。
しかし、それぞれのシステムは、最高のパフォーマンスを確保するために、LLMをそのワークスペースに向ける必要がある。
論文 参考訳(メタデータ) (2024-02-22T03:51:34Z) - Next-Step Hint Generation for Introductory Programming Using Large
Language Models [0.8002196839441036]
大きな言語モデルは、質問に答えたり、エッセイを書いたり、プログラミングの練習を解くといったスキルを持っている。
本研究は,LLMが学生に次のステップの自動ヒントを提供することで,プログラミング教育にどう貢献できるかを考察する。
論文 参考訳(メタデータ) (2023-12-03T17:51:07Z) - Exploring the Potential of Large Language Models in Generating
Code-Tracing Questions for Introductory Programming Courses [6.43363776610849]
大規模言語モデル(LLM)は、プログラミングコースでコードトレースの質問を生成するために使用することができる。
我々は,教育とNLP研究コミュニティの双方にとって貴重な資源として,人間とLLMが生成するトレーシング質問のデータセットを提示する。
論文 参考訳(メタデータ) (2023-10-23T19:35:01Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [56.672981891304005]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
能力モデリングでは、人間の認知を模倣して知識関連能力の4段階の分類を作成し、19ドルのタスクをカバーしている。
データには、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集される新興コーパスの両方を使用し、目に見えないデータを扱う能力と知識の進化を評価することを目的としています。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning
of Large Language Models [78.65241926912663]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z) - Supporting Qualitative Analysis with Large Language Models: Combining
Codebook with GPT-3 for Deductive Coding [45.5690960017762]
本研究は,大言語モデル (LLM) を用いた帰納的符号化支援について検討する。
タスク固有のモデルを訓練する代わりに、事前訓練されたLLMは、素早い学習を通じて微調整することなく、様々なタスクに直接使用することができる。
好奇心駆動型問合せコーディングタスクをケーススタディとして, GPT-3とエキスパートドラフトコードブックを組み合わせることで, 提案手法は有意な一致を達成し, 有能な結果を得た。
論文 参考訳(メタデータ) (2023-04-17T04:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。