論文の概要: Evaluating ChatGPT and GPT-4 for Visual Programming
- arxiv url: http://arxiv.org/abs/2308.02522v1
- Date: Sun, 30 Jul 2023 22:13:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 01:20:54.821040
- Title: Evaluating ChatGPT and GPT-4 for Visual Programming
- Title(参考訳): ビジュアルプログラミングのためのChatGPTとGPT-4の評価
- Authors: Adish Singla
- Abstract要約: GPT-3.5 に基づく ChatGPT と GPT-4 の 2 つのモデルを評価する。
その結果,これらのモデルでは,視覚的プログラミングに不可欠な空間的,論理的,プログラム的スキルの組み合わせが困難であることが示唆された。
- 参考スコア(独自算出の注目度): 20.64766977405438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI and large language models have the potential to drastically
improve the landscape of computing education by automatically generating
personalized feedback and content. Recent works have studied the capabilities
of these models for different programming education scenarios; however, these
works considered only text-based programming, in particular, Python
programming. Consequently, they leave open the question of how well these
models would perform in visual programming domains popularly used for K-8
programming education. The main research question we study is: Do
state-of-the-art generative models show advanced capabilities in visual
programming on par with their capabilities in text-based Python programming? In
our work, we evaluate two models, ChatGPT (based on GPT-3.5) and GPT-4, in
visual programming domains for various scenarios and assess performance using
expert-based annotations. In particular, we base our evaluation using reference
tasks from the domains of Hour of Code: Maze Challenge by Code-dot-org and
Karel. Our results show that these models perform poorly and struggle to
combine spatial, logical, and programming skills crucial for visual
programming. These results also provide exciting directions for future work on
developing techniques to improve the performance of generative models in visual
programming.
- Abstract(参考訳): 生成AIと大規模言語モデルは、パーソナライズされたフィードバックとコンテンツを自動的に生成することによって、コンピューティング教育のランドスケープを劇的に改善する可能性がある。
最近の研究は、異なるプログラミング教育シナリオにおけるこれらのモデルの能力について研究してきたが、これらはテキストベースのプログラミング、特にPythonプログラミングにのみ考慮されている。
その結果、これらのモデルがk-8プログラミング教育で広く使われているビジュアルプログラミング領域でどのように機能するかという疑問が開かれた。
最先端のジェネレーティブモデルは、テキストベースのpythonプログラミングの能力と同等に、ビジュアルプログラミングの高度な能力を示していますか?
本研究では,各種シナリオの視覚プログラミング領域におけるChatGPT(GPT-3.5に基づく)とGPT-4(GPT-4)の2つのモデルを評価し,専門家によるアノテーションを用いた性能評価を行った。
特に、Code-dot-org と Karel による Hour of Code: Maze Challenge のドメインからの参照タスクによる評価をベースとしています。
その結果,これらのモデルでは,空間的,論理的,プログラミング的スキルを組み合わせるのに苦慮していることがわかった。
これらの結果は、ビジュアルプログラミングにおける生成モデルのパフォーマンスを改善する技術の開発に関する今後の取り組みにエキサイティングな方向を与えてくれる。
関連論文リスト
- Evaluating Contextually Personalized Programming Exercises Created with Generative AI [4.046163999707179]
本報告では,GPT-4で作成した文脈別にパーソナライズされたプログラミング演習を含む,選択型プログラミングコースにおけるユーザスタディについて報告する。
その結果, GPT-4で発生する運動の質は概して高かった。
これは、AIが生成するプログラミング問題は、入門プログラミングコースに付加価値があることを示している。
論文 参考訳(メタデータ) (2024-06-11T12:59:52Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - Automating Human Tutor-Style Programming Feedback: Leveraging GPT-4 Tutor Model for Hint Generation and GPT-3.5 Student Model for Hint Validation [25.317788211120362]
本稿では,人間の教師型プログラミングヒントの提供における生成型AIモデルの役割について検討する。
最近の研究は、様々なフィードバック生成シナリオのための最先端モデルのベンチマークを行っている。
我々はGPT4Hints-GPT3.5Valという新しい手法を開発し、生成AIモデルの限界を推し進める。
論文 参考訳(メタデータ) (2023-10-05T17:02:59Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Exploring Large Language Model for Graph Data Understanding in Online
Job Recommendations [63.19448893196642]
本稿では,大規模言語モデルが提供するリッチな文脈情報と意味表現を利用して行動グラフを解析する新しいフレームワークを提案する。
この機能を利用することで、個々のユーザに対してパーソナライズされた、正確なジョブレコメンデーションが可能になる。
論文 参考訳(メタデータ) (2023-07-10T11:29:41Z) - Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4,
and Human Tutors [21.227955181065948]
我々は,ChatGPT(GPT-3.5に基づく)とGPT-4の2つのモデルを体系的に評価し,その性能を様々なシナリオにおいて人間の家庭教師と比較した。
以上の結果から, GPT-4はChatGPT(GPT-3.5をベースとした)を大幅に上回り, 複数のシナリオにおいて人間の指導者に近い性能を示した。
論文 参考訳(メタデータ) (2023-06-29T17:57:40Z) - Thrilled by Your Progress! Large Language Models (GPT-4) No Longer
Struggle to Pass Assessments in Higher Education Programming Courses [0.0]
GPTモデルは、典型的なプログラミングクラスの評価が完全に失敗することから、人間の関与なしにコースを確実に通過することへと進化した。
本研究は,学習者が合格点の収集に利用できる使い勝手の良い技術が存在する世界に備える必要があることを示すものである。
論文 参考訳(メタデータ) (2023-06-15T22:12:34Z) - Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文 参考訳(メタデータ) (2023-05-24T16:42:17Z) - Automatic Generation of Programming Exercises and Code Explanations with
Large Language Models [4.947560475228859]
OpenAI Codexは、GPT-3ファミリーの最近の大規模言語モデルで、コードを自然言語に翻訳する。
プログラミング演習の2つの段階において,Codexの自然言語生成能力について検討する。
自動生成されるコンテンツの大部分は、新しいものでも、理にかなったものでも、多くの場合、そのまま使えるものなのです。
論文 参考訳(メタデータ) (2022-06-03T11:00:43Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - AVATAR: A Parallel Corpus for Java-Python Program Translation [77.86173793901139]
プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。
AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
論文 参考訳(メタデータ) (2021-08-26T05:44:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。