Fugu-MT 論文翻訳(概要): Evaluating ChatGPT and GPT-4 for Visual Programming

論文の概要: Evaluating ChatGPT and GPT-4 for Visual Programming

arxiv url: http://arxiv.org/abs/2308.02522v1
Date: Sun, 30 Jul 2023 22:13:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-14 01:20:54.821040
Title: Evaluating ChatGPT and GPT-4 for Visual Programming
Title（参考訳）: ビジュアルプログラミングのためのChatGPTとGPT-4の評価
Authors: Adish Singla
Abstract要約: GPT-3.5 に基づく ChatGPT と GPT-4 の 2 つのモデルを評価する。その結果,これらのモデルでは,視覚的プログラミングに不可欠な空間的,論理的,プログラム的スキルの組み合わせが困難であることが示唆された。
参考スコア（独自算出の注目度）: 20.64766977405438
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative AI and large language models have the potential to drastically improve the landscape of computing education by automatically generating personalized feedback and content. Recent works have studied the capabilities of these models for different programming education scenarios; however, these works considered only text-based programming, in particular, Python programming. Consequently, they leave open the question of how well these models would perform in visual programming domains popularly used for K-8 programming education. The main research question we study is: Do state-of-the-art generative models show advanced capabilities in visual programming on par with their capabilities in text-based Python programming? In our work, we evaluate two models, ChatGPT (based on GPT-3.5) and GPT-4, in visual programming domains for various scenarios and assess performance using expert-based annotations. In particular, we base our evaluation using reference tasks from the domains of Hour of Code: Maze Challenge by Code-dot-org and Karel. Our results show that these models perform poorly and struggle to combine spatial, logical, and programming skills crucial for visual programming. These results also provide exciting directions for future work on developing techniques to improve the performance of generative models in visual programming.
Abstract（参考訳）: 生成AIと大規模言語モデルは、パーソナライズされたフィードバックとコンテンツを自動的に生成することによって、コンピューティング教育のランドスケープを劇的に改善する可能性がある。最近の研究は、異なるプログラミング教育シナリオにおけるこれらのモデルの能力について研究してきたが、これらはテキストベースのプログラミング、特にPythonプログラミングにのみ考慮されている。その結果、これらのモデルがk-8プログラミング教育で広く使われているビジュアルプログラミング領域でどのように機能するかという疑問が開かれた。最先端のジェネレーティブモデルは、テキストベースのpythonプログラミングの能力と同等に、ビジュアルプログラミングの高度な能力を示していますか? 本研究では,各種シナリオの視覚プログラミング領域におけるChatGPT(GPT-3.5に基づく)とGPT-4(GPT-4)の2つのモデルを評価し,専門家によるアノテーションを用いた性能評価を行った。特に、Code-dot-org と Karel による Hour of Code: Maze Challenge のドメインからの参照タスクによる評価をベースとしています。その結果,これらのモデルでは,空間的,論理的,プログラミング的スキルを組み合わせるのに苦慮していることがわかった。これらの結果は、ビジュアルプログラミングにおける生成モデルのパフォーマンスを改善する技術の開発に関する今後の取り組みにエキサイティングな方向を与えてくれる。

関連論文リスト

Drawing Your Programs: Exploring the Applications of Visual-Prompting with GenAI for Teaching and Assessment [0.32622301272834514]
我々は、このテキスト中心の焦点が、問題分解図などのGenAIモデルを促進する他の形態を見落としていると論じる。我々は、現在のモデルが学生が構築した図からコードを生成する能力に非常に成功したことを実証する。
論文参考訳（メタデータ） (2026-02-11T04:59:31Z)
Teaching Programming in the Age of Generative AI: Insights from Literature, Pedagogical Proposals, and Student Perspectives [0.0]
この記事では、プログラミングコンテンツがどのように教えられ、学習され、評価されるべきかについて、最も関連する研究をレビューすることを目的とする。コードの理解と実行に焦点をあてて、教育と学習の方法論を充実させることを提案する。プログラミングの教え、学習、評価のための効果的なツールとして、コードの視覚表現と実行の視覚シミュレーションの使用を提唱している。
論文参考訳（メタデータ） (2025-06-30T17:38:27Z)
Visual Program Distillation with Template-Based Augmentation [58.394564822036195]
人為的なプログラムアノテーションを必要としない低コストのビジュアルプログラム蒸留法を提案する。比較的少量の質問/回答データにより、より高速な推論の利点を付加して、小さな言語モデルは高品質なビジュアルプログラムを生成することができる。
論文参考訳（メタデータ） (2024-12-11T17:32:21Z)
Evaluating Contextually Personalized Programming Exercises Created with Generative AI [4.046163999707179]
本報告では,GPT-4で作成した文脈別にパーソナライズされたプログラミング演習を含む,選択型プログラミングコースにおけるユーザスタディについて報告する。その結果, GPT-4で発生する運動の質は概して高かった。これは、AIが生成するプログラミング問題は、入門プログラミングコースに付加価値があることを示している。
論文参考訳（メタデータ） (2024-06-11T12:59:52Z)
CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。 CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文参考訳（メタデータ） (2024-05-03T02:48:55Z)
Automating Human Tutor-Style Programming Feedback: Leveraging GPT-4 Tutor Model for Hint Generation and GPT-3.5 Student Model for Hint Validation [25.317788211120362]
本稿では,人間の教師型プログラミングヒントの提供における生成型AIモデルの役割について検討する。最近の研究は、様々なフィードバック生成シナリオのための最先端モデルのベンチマークを行っている。我々はGPT4Hints-GPT3.5Valという新しい手法を開発し、生成AIモデルの限界を推し進める。
論文参考訳（メタデータ） (2023-10-05T17:02:59Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Exploring Large Language Model for Graph Data Understanding in Online Job Recommendations [63.19448893196642]
本稿では,大規模言語モデルが提供するリッチな文脈情報と意味表現を利用して行動グラフを解析する新しいフレームワークを提案する。この機能を利用することで、個々のユーザに対してパーソナライズされた、正確なジョブレコメンデーションが可能になる。
論文参考訳（メタデータ） (2023-07-10T11:29:41Z)
Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors [21.227955181065948]
我々は,ChatGPT(GPT-3.5に基づく)とGPT-4の2つのモデルを体系的に評価し,その性能を様々なシナリオにおいて人間の家庭教師と比較した。以上の結果から, GPT-4はChatGPT(GPT-3.5をベースとした)を大幅に上回り, 複数のシナリオにおいて人間の指導者に近い性能を示した。
論文参考訳（メタデータ） (2023-06-29T17:57:40Z)
Thrilled by Your Progress! Large Language Models (GPT-4) No Longer Struggle to Pass Assessments in Higher Education Programming Courses [0.0]
GPTモデルは、典型的なプログラミングクラスの評価が完全に失敗することから、人間の関与なしにコースを確実に通過することへと進化した。本研究は,学習者が合格点の収集に利用できる使い勝手の良い技術が存在する世界に備える必要があることを示すものである。
論文参考訳（メタデータ） (2023-06-15T22:12:34Z)
Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文参考訳（メタデータ） (2023-05-24T16:42:17Z)
Automatic Generation of Programming Exercises and Code Explanations with Large Language Models [4.947560475228859]
OpenAI Codexは、GPT-3ファミリーの最近の大規模言語モデルで、コードを自然言語に翻訳する。プログラミング演習の2つの段階において,Codexの自然言語生成能力について検討する。自動生成されるコンテンツの大部分は、新しいものでも、理にかなったものでも、多くの場合、そのまま使えるものなのです。
論文参考訳（メタデータ） (2022-06-03T11:00:43Z)
ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。 20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文参考訳（メタデータ） (2022-04-19T10:23:42Z)
AVATAR: A Parallel Corpus for Java-Python Program Translation [77.86173793901139]
プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。 AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
論文参考訳（メタデータ） (2021-08-26T05:44:20Z)
How to Design Sample and Computationally Efficient VQA Models [53.65668097847456]
テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
論文参考訳（メタデータ） (2021-03-22T01:48:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。