Fugu-MT 論文翻訳(概要): A case study on the transformative potential of AI in software engineering on LeetCode and ChatGPT

論文の概要: A case study on the transformative potential of AI in software engineering on LeetCode and ChatGPT

arxiv url: http://arxiv.org/abs/2501.03639v1
Date: Tue, 07 Jan 2025 09:15:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-08 16:58:03.002578
Title: A case study on the transformative potential of AI in software engineering on LeetCode and ChatGPT
Title（参考訳）: LeetCodeとChatGPTを用いたソフトウェア工学におけるAIの変容可能性に関する事例研究
Authors: Manuel Merkel, Jens Dörpinghaus,
Abstract要約: 本研究は,LeetCode ユーザによる Python プログラムのソフトウェア品質と GPT-4o によるソフトウェア品質を比較し,方法論的アプローチを採用する。この結果から, GPT-4oはコード品質, 可理解性, 実行時において, 限られたスケールでコードを生成する場合に, かなりの障害を生じさせないことが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The recent surge in the field of generative artificial intelligence (GenAI) has the potential to bring about transformative changes across a range of sectors, including software engineering and education. As GenAI tools, such as OpenAI's ChatGPT, are increasingly utilised in software engineering, it becomes imperative to understand the impact of these technologies on the software product. This study employs a methodological approach, comprising web scraping and data mining from LeetCode, with the objective of comparing the software quality of Python programs produced by LeetCode users with that generated by GPT-4o. In order to gain insight into these matters, this study addresses the question whether GPT-4o produces software of superior quality to that produced by humans. The findings indicate that GPT-4o does not present a considerable impediment to code quality, understandability, or runtime when generating code on a limited scale. Indeed, the generated code even exhibits significantly lower values across all three metrics in comparison to the user-written code. However, no significantly superior values were observed for the generated code in terms of memory usage in comparison to the user code, which contravened the expectations. Furthermore, it will be demonstrated that GPT-4o encountered challenges in generalising to problems that were not included in the training data set. This contribution presents a first large-scale study comparing generated code with human-written code based on LeetCode platform based on multiple measures including code quality, code understandability, time behaviour and resource utilisation. All data is publicly available for further research.
Abstract（参考訳）: 最近のジェネレーティブ人工知能(GenAI)分野の急増は、ソフトウェア工学や教育など、さまざまな分野に変革をもたらす可能性がある。 OpenAIのChatGPTのようなGenAIツールがソフトウェアエンジニアリングでますます活用されているため、これらの技術がソフトウェア製品に与える影響を理解することが不可欠になっている。本研究は,LeetCode ユーザによる Python プログラムのソフトウェア品質と GPT-4o によるソフトウェア品質を比較することを目的として,LeetCode からの Web スクレイピングとデータマイニングを含む方法論的アプローチを採用する。本研究は,GPT-4oが人間より優れた品質のソフトウェアを生産するかどうかという問題に対処するものである。この結果から, GPT-4oはコード品質, 可理解性, 実行時において, 限られたスケールでコードを生成する場合に, かなりの障害を生じさせないことが示唆された。実際、生成されたコードは、ユーザによって書かれたコードと比較して、3つのメトリクスすべてに対してかなり低い値を示します。しかし、メモリ使用率の観点からは、期待を裏切ったユーザコードに比べて、生成したコードに対して顕著に優れた値が得られなかった。さらに、GPT-4oがトレーニングデータセットに含まれていない問題に一般化する上で、課題に直面していることが示される。このコントリビューションは、コード品質、コード理解性、時間的振る舞い、リソース利用など、複数の尺度に基づいて、生成したコードとLeetCodeプラットフォームに基づく人手によるコードを比較した初めての大規模な研究である。すべてのデータは、さらなる研究のために公開されています。

関連論文リスト

The Impact of Generative AI on Code Expertise Models: An Exploratory Study [0.0]
本稿では、知識モデルとトラックファクターアルゴリズムがGenAIの利用によってどのように影響するかを探索分析する。この結果から,GenAIが開発に深く統合されるにつれ,これらの指標の信頼性が低下する可能性が示唆された。
論文参考訳（メタデータ） (2025-07-10T20:43:08Z)
Comparing Human and LLM Generated Code: The Jury is Still Out! [8.456554883523472]
大規模言語モデル(LLM)と人間プログラマによるPythonのソフトウェアコード作成の有効性を比較した。 Pylint、Radon、Bandit、テストケースなど、さまざまな静的分析ベンチマークを使用しています。我々は、人間とGPT-4の両方が生成したコードのセキュリティ欠陥を観察するが、GPT-4コードはより深刻な外れ値を含んでいた。
論文参考訳（メタデータ） (2025-01-28T11:11:36Z)
Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文参考訳（メタデータ） (2024-10-29T12:21:23Z)
Impact of the Availability of ChatGPT on Software Development: A Synthetic Difference in Differences Estimation using GitHub Data [49.1574468325115]
ChatGPTは、ソフトウェア生産効率を向上させるAIツールである。 10万人あたりのgitプッシュ数、リポジトリ数、ユニークな開発者数に対するChatGPTの影響を見積もっています。これらの結果は、ChatGPTのようなAIツールが開発者の生産性を大幅に向上させる可能性があることを示唆している。
論文参考訳（メタデータ） (2024-06-16T19:11:15Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2024-04-15T14:44:08Z)
Whodunit: Classifying Code as Human Authored or GPT-4 Generated -- A case study on CodeChef problems [0.13124513975412253]
コードスタイメトリーと機械学習を用いて、GPT-4の生成したコードと人間によるコードとを区別する。我々のデータセットは、CodeChefの人間認可ソリューションと、GPT-4で生成されたAI認可ソリューションから構成される。本研究は, GPT-4生成コードと人為的なコードとを区別する上で, コードスタイメトリーは有望なアプローチであることを示す。
論文参考訳（メタデータ） (2024-03-06T19:51:26Z)
Comparing large language models and human programmers for generating programming code [0.0]
GPT-4は、Gemini UltraやClaude 2など、他の大きな言語モデルよりも大幅に優れている。この研究で評価されたほとんどのLeetCodeとGeeksforGeeksのコーディングコンテストにおいて、最適のプロンプト戦略を採用するGPT-4は、人間の参加者の85%を上回っている。
論文参考訳（メタデータ） (2024-03-01T14:43:06Z)
Is Self-Repair a Silver Bullet for Code Generation? [68.02601393906083]
大規模な言語モデルは、コード生成において顕著な適性を示しているが、それでも複雑なタスクを実行するのに苦労している。自己修復(Self-repair) — モデルが自身のコードをデバッグし、修復する — は、最近、パフォーマンスを向上する一般的な方法になっている。我々は,Code Llama, GPT-3.5, GPT-4によるHumanEvalとAPPSの自己修復能力について分析した。
論文参考訳（メタデータ） (2023-06-16T15:13:17Z)
Comparing Software Developers with ChatGPT: An Empirical Investigation [0.0]
本稿では,ChatGPTのようなソフトウェア技術者やAIシステムのパフォーマンスを,さまざまな評価指標で比較した実証的研究を行う。この論文は、さまざまな評価基準を考慮して、ソフトウェアエンジニアとAIベースのソリューションの包括的な比較が、人間と機械のコラボレーションを促進する上で重要であることを示唆している。
論文参考訳（メタデータ） (2023-05-19T17:25:54Z)
AI-assisted coding: Experiments with GPT-4 [0.22366638308792727]
GPT-4は、かなりのカバレッジでテストを生成することができるが、ほとんどのテストは関連するコードに適用されない。これらの結果は、AIコーディングツールは非常に強力であるが、結果の妥当性と正確性を保証するためには、まだ人間を必要とすることを示唆している。
論文参考訳（メタデータ） (2023-04-25T22:59:01Z)
PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文参考訳（メタデータ） (2023-03-31T18:03:53Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。