Fugu-MT 論文翻訳(概要): Scratch Copilot Evaluation: Assessing AI-Assisted Creative Coding for Families

論文の概要: Scratch Copilot Evaluation: Assessing AI-Assisted Creative Coding for Families

arxiv url: http://arxiv.org/abs/2305.10417v1
Date: Wed, 17 May 2023 17:52:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-18 14:21:16.853814
Title: Scratch Copilot Evaluation: Assessing AI-Assisted Creative Coding for Families
Title（参考訳）: scratch copilot evaluation: 家族のためのai支援クリエイティブコーディングの評価
Authors: Stefania Druga and Nancy Otero
Abstract要約: 本研究では,Scratch を用いた家族の創造的コーディングを支援するための大規模言語モデル (LLM) の可能性を探る。 LLMは、様々なタスクや評価基準において、全体の成功率を80%以上達成した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: How can AI enhance creative coding experiences for families? This study explores the potential of large language models (LLMs) in helping families with creative coding using Scratch. Based on our previous user study involving a prototype AI assistant, we devised three evaluation scenarios to determine if LLMs could help families comprehend game code, debug programs, and generate new ideas for future projects. We utilized 22 Scratch projects for each scenario and generated responses from LLMs with and without practice tasks, resulting in 120 creative coding support scenario datasets. In addition, the authors independently evaluated their precision, pedagogical value, and age-appropriate language. Our findings show that LLMs achieved an overall success rate of more than 80\% on the different tasks and evaluation criteria. This research offers valuable information on using LLMs for creative family coding and presents design guidelines for future AI-supported coding applications. Our evaluation framework, together with our labeled evaluation data, is publicly available.
Abstract（参考訳）: AIは家族のための創造的なコーディング体験をどのように強化するか? 本研究では,Scratch を用いた家族の創造的コーディングを支援するための大規模言語モデル (LLM) の可能性を探る。プロトタイプAIアシスタントを含むこれまでのユーザ調査に基づいて、3つの評価シナリオを考案し、LLMが家族がゲームコードを理解し、プログラムをデバッグし、将来のプロジェクトのための新しいアイデアを生成するのに役立つかどうかを判断した。シナリオ毎に22のScratchプロジェクトを利用して,LLMから実行タスクと不要なレスポンスを生成し,120のクリエイティブコーディングサポートシナリオデータセットを作成した。さらに, 著者らは, 精度, 教育的価値, 年齢に応じた言語を独立に評価した。以上の結果から,LLMはタスクや評価基準の相違により,全体の成功率を80%以上達成できた。この研究は、創造的なファミリーコーディングにLLMを使うことに関する貴重な情報を提供し、将来のAI支援コーディングアプリケーションの設計ガイドラインを提示する。評価フレームワークはラベル付き評価データとともに公開されています。

関連論文リスト

ProjectEval: A Benchmark for Programming Agents Automated Evaluation on Project-Level Code Generation [10.748303323995986]
ユーザインタラクションをシミュレートしてプロジェクトレベルのコード生成を自動評価する,LLMエージェントのための新しいベンチマークであるProjectEvalを紹介する。 ProjectEvalは、実行のためのユーザインタラクションシミュレーションと、既存の客観的インジケータによるコード類似性によって、生成されたプロジェクトを評価することができる。システム工学的なプロジェクトコード、プロジェクト全体の理解、総合的な分析能力が、LLMエージェントが実践的なプロジェクトを達成する鍵であることに気付きました。
論文参考訳（メタデータ） (2025-03-10T07:47:27Z)
Large Language Models for Code Generation: The Practitioners Perspective [4.946128083535776]
大きな言語モデル(LLM)は、自然言語のプロンプトからソースコードを生成することができるコーディングアシスタントとして登場した。自然言語のプロンプトに基づいてコードを生成し,実行するための多モデル統合プラットフォームを提案し,開発する。我々は4大陸11カ国から60人のソフトウェア実践者を対象に,各モデルのユーザビリティ,パフォーマンス,強み,限界を評価する調査を行った。
論文参考訳（メタデータ） (2025-01-28T14:52:16Z)
CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
KIWI: A Dataset of Knowledge-Intensive Writing Instructions for Answering Research Questions [63.307317584926146]
ユーザ命令に従うように適応された大規模言語モデル(LLM)は、現在では会話エージェントとして広くデプロイされている。そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。我々は、科学領域における知識集約的な記述命令のデータセットKIWIを構築した。
論文参考訳（メタデータ） (2024-03-06T17:16:44Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming [12.355284125578342]
大規模言語モデル(LLM)は、現代のソフトウェア開発の焦点となっている。 LLMは、インテリジェントでチャット駆動のプログラミングアシスタントとして機能することで、開発者の生産性を大幅に向上する可能性がある。しかし、それぞれのシステムは、最高のパフォーマンスを確保するために、LLMをそのワークスペースに向ける必要がある。
論文参考訳（メタデータ） (2024-02-22T03:51:34Z)
An Empirical Study on Usage and Perceptions of LLMs in a Software Engineering Project [1.433758865948252]
大規模言語モデル(LLM)は人工知能の飛躍であり、人間の言語を用いたタスクに優れる。本稿では、AI生成したコードを分析し、コード生成に使用するプロンプトと人間の介入レベルを分析し、コードをコードベースに統合する。ソフトウェア開発の初期段階において,LSMが重要な役割を担っていることが示唆された。
論文参考訳（メタデータ） (2024-01-29T14:32:32Z)
Next-Step Hint Generation for Introductory Programming Using Large Language Models [0.8002196839441036]
大きな言語モデルは、質問に答えたり、エッセイを書いたり、プログラミングの練習を解くといったスキルを持っている。本研究は,LLMが学生に次のステップの自動ヒントを提供することで,プログラミング教育にどう貢献できるかを考察する。
論文参考訳（メタデータ） (2023-12-03T17:51:07Z)
Exploring the Potential of Large Language Models in Generating Code-Tracing Questions for Introductory Programming Courses [6.43363776610849]
大規模言語モデル(LLM)は、プログラミングコースでコードトレースの質問を生成するために使用することができる。我々は,教育とNLP研究コミュニティの双方にとって貴重な資源として,人間とLLMが生成するトレーシング質問のデータセットを提示する。
論文参考訳（メタデータ） (2023-10-23T19:35:01Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文参考訳（メタデータ） (2023-06-15T17:20:46Z)
Supporting Qualitative Analysis with Large Language Models: Combining Codebook with GPT-3 for Deductive Coding [45.5690960017762]
本研究は,大言語モデル (LLM) を用いた帰納的符号化支援について検討する。タスク固有のモデルを訓練する代わりに、事前訓練されたLLMは、素早い学習を通じて微調整することなく、様々なタスクに直接使用することができる。好奇心駆動型問合せコーディングタスクをケーススタディとして, GPT-3とエキスパートドラフトコードブックを組み合わせることで, 提案手法は有意な一致を達成し, 有能な結果を得た。
論文参考訳（メタデータ） (2023-04-17T04:52:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。