Fugu-MT 論文翻訳(概要): LLMs Still Can't Avoid Instanceof: An Investigation Into GPT-3.5, GPT-4 and Bard's Capacity to Handle Object-Oriented Programming Assignments

論文の概要: LLMs Still Can't Avoid Instanceof: An Investigation Into GPT-3.5, GPT-4 and Bard's Capacity to Handle Object-Oriented Programming Assignments

arxiv url: http://arxiv.org/abs/2403.06254v1
Date: Sun, 10 Mar 2024 16:40:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 06:46:26.034415
Title: LLMs Still Can't Avoid Instanceof: An Investigation Into GPT-3.5, GPT-4 and Bard's Capacity to Handle Object-Oriented Programming Assignments
Title（参考訳）: LLMはまだインスタンスを回避できない - GPT-3.5, GPT-4, Bardのオブジェクト指向プログラミング割り当て処理能力の調査
Authors: Bruno Pereira Cipriano, Pedro Alves
Abstract要約: 大規模言語モデル(LLM)は、プログラミング課題を解決しながら学生を支援するための有望なツールとして登場した。本研究では,3つの卓越したLCMを用いて,実環境におけるOOPの課題を解決する実験を行った。この結果から、モデルはエクササイズに対する動作可能なソリューションを多く達成する一方で、OOPのベストプラクティスを見落としていることが判明した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Language Models (LLMs) have emerged as promising tools to assist students while solving programming assignments. However, object-oriented programming (OOP), with its inherent complexity involving the identification of entities, relationships, and responsibilities, is not yet mastered by these tools. Contrary to introductory programming exercises, there exists a research gap with regard to the behavior of LLMs in OOP contexts. In this study, we experimented with three prominent LLMs - GPT-3.5, GPT-4, and Bard - to solve real-world OOP exercises used in educational settings, subsequently validating their solutions using an Automatic Assessment Tool (AAT). The findings revealed that while the models frequently achieved mostly working solutions to the exercises, they often overlooked the best practices of OOP. GPT-4 stood out as the most proficient, followed by GPT-3.5, with Bard trailing last. We advocate for a renewed emphasis on code quality when employing these models and explore the potential of pairing LLMs with AATs in pedagogical settings. In conclusion, while GPT-4 showcases promise, the deployment of these models in OOP education still mandates supervision.
Abstract（参考訳）: 大規模言語モデル(llm)は、プログラミング課題を解決しながら学生を支援する有望なツールとして登場した。しかしながら、オブジェクト指向プログラミング(OOP)は、エンティティ、リレーションシップ、責任の識別を含む固有の複雑さを持ち、これらのツールによってまだマスターされていない。プログラミングの入門とは対照的に、OOPの文脈におけるLLMの振る舞いに関する研究のギャップがある。本研究では,3つの著名なLCM (GPT-3.5, GPT-4, Bard) を用いて,実世界のOOP演習を学習環境に応用し,その解法を自動評価ツール (AAT) を用いて検証した。この結果から、モデルはエクササイズに対する動作可能なソリューションを多く達成する一方で、OOPのベストプラクティスを見落としていることが判明した。 GPT-4は最も熟練しており、続いてGPT-3.5が続き、バードは後を追った。我々は、これらのモデルを採用する際にコード品質を新たに重視し、段階的な設定でLLMとAATをペアリングする可能性を探求する。結論として、GPT-4は約束を示すが、OOP教育におけるこれらのモデルの展開は依然として監督を義務付けている。

関連論文リスト

Generating Planning Feedback for Open-Ended Programming Exercises with LLMs [1.2499537119440245]
大きな言語モデル(LLM)は、構文エラーのあるサブミッションであっても、全体的なコード構造を検出してフィードバックを生成することができる。 GPT-4oモデルと小型変種(GPT-4o-mini)の両方が、これらの計画を驚くほど精度良く検出できることを示す。 LLMは、学生が高レベルのソリューションの一連のステップから始める他の領域の問題に対するフィードバックを提供するのに役立つかもしれない。
論文参考訳（メタデータ） (2025-04-11T20:26:49Z)
Open, Small, Rigmarole -- Evaluating Llama 3.2 3B's Feedback for Programming Exercises [0.0]
大規模言語モデル(LLM)は、ここ数年で広範囲にわたる研究の対象となっている。本研究は,LLM Llama 3.2(3B)のオープンで軽量なLLM Llamaのフィードバック特性について検討する。
論文参考訳（メタデータ） (2025-04-01T17:24:39Z)
Prompt-Based Cost-Effective Evaluation and Operation of ChatGPT as a Computer Programming Teaching Assistant [0.0]
この記事では、そのようなアプリケーションに関連する3つの側面について研究する。 GPT-3.5T と GPT-4T の2つのモデルの性能評価を行った。
論文参考訳（メタデータ） (2025-01-24T08:15:05Z)
See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。 GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文参考訳（メタデータ） (2024-08-16T19:01:52Z)
Generative AI for Enhancing Active Learning in Education: A Comparative Study of GPT-3.5 and GPT-4 in Crafting Customized Test Questions [2.0411082897313984]
本研究では, LLM, 特に GPT-3.5 と GPT-4 が, グレード9の算数に適した質問をいかに展開できるかを検討する。反復的手法を用いることで、これらのモデルは、シミュレーションされた「学生」モデルからのフィードバックに応じて、難易度と内容に基づいて質問を調整する。
論文参考訳（メタデータ） (2024-06-20T00:25:43Z)
Can large language models explore in-context? [87.49311128190143]
単純なマルチアームバンディット環境において,エージェントとして大規模言語モデルをデプロイする。モデルが実質的な介入なしには、探索にしっかりと関わっていないことが分かっています。
論文参考訳（メタデータ） (2024-03-22T17:50:43Z)
LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。 STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文参考訳（メタデータ） (2024-03-07T18:50:51Z)
Feedback-Generation for Programming Exercises With GPT-4 [0.0]
本稿では,プログラミングタスク仕様と学生が入力として提出した入力の両方を含むプロンプトに対して,GPT-4 Turboが生成する出力の品質について検討する。アウトプットは, 正当性, パーソナライゼーション, フォールトローカライゼーション, その他の特徴について質的に分析した。
論文参考訳（メタデータ） (2024-03-07T12:37:52Z)
OOP: Object-Oriented Programming Evaluation Benchmark for Large Language Models [85.73744378691727]
この研究では、431のPythonプログラムを特徴とするOOPにフォーカスした先駆的なベンチマークを紹介した。本稿では、OOP用に調整された新しい評価基準であるpass@oを提案し、従来のpass@k対策を強化する。
論文参考訳（メタデータ） (2024-01-12T15:21:36Z)
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文参考訳（メタデータ） (2023-09-28T16:43:35Z)
Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。 Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文参考訳（メタデータ） (2023-09-16T11:31:58Z)
GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction [41.36474802204914]
GPT4Tools は LLaMA や OPT などのオープンソース LLM のツール使用を可能にするための自己インストラクトに基づいている。先進的な教師に様々なマルチモーダルな文脈で指示追従データセットを生成する。
論文参考訳（メタデータ） (2023-05-30T05:27:21Z)
Generalized Planning in PDDL Domains with Pretrained Large Language Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。 7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文参考訳（メタデータ） (2023-05-18T14:48:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。