論文の概要: LLMs Still Can't Avoid Instanceof: An Investigation Into GPT-3.5, GPT-4
and Bard's Capacity to Handle Object-Oriented Programming Assignments
- arxiv url: http://arxiv.org/abs/2403.06254v1
- Date: Sun, 10 Mar 2024 16:40:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 06:46:26.034415
- Title: LLMs Still Can't Avoid Instanceof: An Investigation Into GPT-3.5, GPT-4
and Bard's Capacity to Handle Object-Oriented Programming Assignments
- Title(参考訳): LLMはまだインスタンスを回避できない - GPT-3.5, GPT-4, Bardのオブジェクト指向プログラミング割り当て処理能力の調査
- Authors: Bruno Pereira Cipriano, Pedro Alves
- Abstract要約: 大規模言語モデル(LLM)は、プログラミング課題を解決しながら学生を支援するための有望なツールとして登場した。
本研究では,3つの卓越したLCMを用いて,実環境におけるOOPの課題を解決する実験を行った。
この結果から、モデルはエクササイズに対する動作可能なソリューションを多く達成する一方で、OOPのベストプラクティスを見落としていることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) have emerged as promising tools to assist
students while solving programming assignments. However, object-oriented
programming (OOP), with its inherent complexity involving the identification of
entities, relationships, and responsibilities, is not yet mastered by these
tools. Contrary to introductory programming exercises, there exists a research
gap with regard to the behavior of LLMs in OOP contexts. In this study, we
experimented with three prominent LLMs - GPT-3.5, GPT-4, and Bard - to solve
real-world OOP exercises used in educational settings, subsequently validating
their solutions using an Automatic Assessment Tool (AAT). The findings revealed
that while the models frequently achieved mostly working solutions to the
exercises, they often overlooked the best practices of OOP. GPT-4 stood out as
the most proficient, followed by GPT-3.5, with Bard trailing last. We advocate
for a renewed emphasis on code quality when employing these models and explore
the potential of pairing LLMs with AATs in pedagogical settings. In conclusion,
while GPT-4 showcases promise, the deployment of these models in OOP education
still mandates supervision.
- Abstract(参考訳): 大規模言語モデル(llm)は、プログラミング課題を解決しながら学生を支援する有望なツールとして登場した。
しかしながら、オブジェクト指向プログラミング(OOP)は、エンティティ、リレーションシップ、責任の識別を含む固有の複雑さを持ち、これらのツールによってまだマスターされていない。
プログラミングの入門とは対照的に、OOPの文脈におけるLLMの振る舞いに関する研究のギャップがある。
本研究では,3つの著名なLCM (GPT-3.5, GPT-4, Bard) を用いて,実世界のOOP演習を学習環境に応用し,その解法を自動評価ツール (AAT) を用いて検証した。
この結果から、モデルはエクササイズに対する動作可能なソリューションを多く達成する一方で、OOPのベストプラクティスを見落としていることが判明した。
GPT-4は最も熟練しており、続いてGPT-3.5が続き、バードは後を追った。
我々は、これらのモデルを採用する際にコード品質を新たに重視し、段階的な設定でLLMとAATをペアリングする可能性を探求する。
結論として、GPT-4は約束を示すが、OOP教育におけるこれらのモデルの展開は依然として監督を義務付けている。
関連論文リスト
- See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - Generative AI for Enhancing Active Learning in Education: A Comparative Study of GPT-3.5 and GPT-4 in Crafting Customized Test Questions [2.0411082897313984]
本研究では, LLM, 特に GPT-3.5 と GPT-4 が, グレード9の算数に適した質問をいかに展開できるかを検討する。
反復的手法を用いることで、これらのモデルは、シミュレーションされた「学生」モデルからのフィードバックに応じて、難易度と内容に基づいて質問を調整する。
論文 参考訳(メタデータ) (2024-06-20T00:25:43Z) - Can large language models explore in-context? [87.49311128190143]
単純なマルチアームバンディット環境において,エージェントとして大規模言語モデルをデプロイする。
モデルが実質的な介入なしには、探索にしっかりと関わっていないことが分かっています。
論文 参考訳(メタデータ) (2024-03-22T17:50:43Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - Feedback-Generation for Programming Exercises With GPT-4 [0.0]
本稿では,プログラミングタスク仕様と学生が入力として提出した入力の両方を含むプロンプトに対して,GPT-4 Turboが生成する出力の品質について検討する。
アウトプットは, 正当性, パーソナライゼーション, フォールトローカライゼーション, その他の特徴について質的に分析した。
論文 参考訳(メタデータ) (2024-03-07T12:37:52Z) - OOP: Object-Oriented Programming Evaluation Benchmark for Large Language
Models [85.73744378691727]
この研究では、431のPythonプログラムを特徴とするOOPにフォーカスした先駆的なベンチマークを紹介した。
本稿では、OOP用に調整された新しい評価基準であるpass@oを提案し、従来のpass@k対策を強化する。
論文 参考訳(メタデータ) (2024-01-12T15:21:36Z) - GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。
私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文 参考訳(メタデータ) (2023-09-28T16:43:35Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - GPT4Tools: Teaching Large Language Model to Use Tools via
Self-instruction [41.36474802204914]
GPT4Tools は LLaMA や OPT などのオープンソース LLM のツール使用を可能にするための自己インストラクトに基づいている。
先進的な教師に様々なマルチモーダルな文脈で指示追従データセットを生成する。
論文 参考訳(メタデータ) (2023-05-30T05:27:21Z) - Generalized Planning in PDDL Domains with Pretrained Large Language
Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。
7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文 参考訳(メタデータ) (2023-05-18T14:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。