論文の概要: Comparing Human and LLM Generated Code: The Jury is Still Out!
- arxiv url: http://arxiv.org/abs/2501.16857v1
- Date: Tue, 28 Jan 2025 11:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:42:19.446714
- Title: Comparing Human and LLM Generated Code: The Jury is Still Out!
- Title(参考訳): 人間とLLM生成コードの比較: 陪審は未決!
- Authors: Sherlock A. Licorish, Ansh Bajpai, Chetan Arora, Fanyu Wang, Kla Tantithamthavorn,
- Abstract要約: 大規模言語モデル(LLM)と人間プログラマによるPythonのソフトウェアコード作成の有効性を比較した。
Pylint、Radon、Bandit、テストケースなど、さまざまな静的分析ベンチマークを使用しています。
我々は、人間とGPT-4の両方が生成したコードのセキュリティ欠陥を観察するが、GPT-4コードはより深刻な外れ値を含んでいた。
- 参考スコア(独自算出の注目度): 8.456554883523472
- License:
- Abstract: Much is promised in relation to AI-supported software development. However, there has been limited evaluation effort in the research domain aimed at validating the true utility of such techniques, especially when compared to human coding outputs. We bridge this gap, where a benchmark dataset comprising 72 distinct software engineering tasks is used to compare the effectiveness of large language models (LLMs) and human programmers in producing Python software code. GPT-4 is used as a representative LLM, where for the code generated by humans and this LLM, we evaluate code quality and adherence to Python coding standards, code security and vulnerabilities, code complexity and functional correctness. We use various static analysis benchmarks, including Pylint, Radon, Bandit and test cases. Among the notable outcomes, results show that human-generated code recorded higher ratings for adhering to coding standards than GPT-4. We observe security flaws in code generated by both humans and GPT-4, however, code generated by humans shows a greater variety of problems, but GPT-4 code included more severe outliers. Our results show that although GPT-4 is capable of producing coding solutions, it frequently produces more complex code that may need more reworking to ensure maintainability. On the contrary however, our outcomes show that a higher number of test cases passed for code generated by GPT-4 across a range of tasks than code that was generated by humans. That said, GPT-4 frequently struggles with complex problem-solving that involve in-depth domain knowledge. This study highlights the potential utility of LLMs for supporting software development, however, tasks requiring comprehensive, innovative or unconventional solutions, and careful debugging and error correction seem to be better developed by human programmers. We plot an agenda for the software engineering community.
- Abstract(参考訳): AIをサポートするソフトウェア開発に関して、多くのことが約束されている。
しかし,このような手法の真の有用性,特に人間の符号化出力と比較した場合の有効性を検証するために,研究領域では限られた評価努力がなされている。
72の異なるソフトウェアエンジニアリングタスクからなるベンチマークデータセットを使用して、大規模言語モデル(LLM)と人的プログラマによるPythonソフトウェアコード生成の有効性を比較する。
GPT-4 は代表的 LLM として用いられ,人間の生成するコードと LLM に対して,Python のコーディング標準,コードのセキュリティと脆弱性,コードの複雑さと機能的正確性を評価する。
Pylint、Radon、Bandit、テストケースなど、さまざまな静的分析ベンチマークを使用しています。
その結果, GPT-4よりも, 符号化基準に順応する評価が高かった。
我々は人間とGPT-4の両方が生成するコードのセキュリティ欠陥を観察するが、人間によって生成されたコードはより多様な問題を示すが、GPT-4のコードはより深刻な外れ値を含んでいる。
以上の結果から, GPT-4はコーディングソリューションを生成可能であるが, メンテナンス性を確保するためには, より複雑なコードを生成する必要があることが示唆された。
しかし,本研究の結果は,GPT-4 が生成するコードに対して,人間が生成するコードよりも,タスクの範囲にまたがるテストケースの数が多いことを示している。
とは言っても、GPT-4は、深いドメイン知識を含む複雑な問題解決にしばしば苦労します。
この研究は、LLMがソフトウェア開発を支援する可能性を強調しているが、包括的、革新的、あるいは非伝統的なソリューションを必要とするタスク、そして、注意深いデバッグとエラー訂正は、人間のプログラマによってより良い開発がなされているように思われる。
私たちは、ソフトウェアエンジニアリングコミュニティのためのアジェンダをプロットします。
関連論文リスト
- A case study on the transformative potential of AI in software engineering on LeetCode and ChatGPT [0.0]
本研究は,LeetCode ユーザによる Python プログラムのソフトウェア品質と GPT-4o によるソフトウェア品質を比較し,方法論的アプローチを採用する。
この結果から, GPT-4oはコード品質, 可理解性, 実行時において, 限られたスケールでコードを生成する場合に, かなりの障害を生じさせないことが示唆された。
論文 参考訳(メタデータ) (2025-01-07T09:15:25Z) - Comparing Robustness Against Adversarial Attacks in Code Generation: LLM-Generated vs. Human-Written [11.16693333878553]
本稿では,人間が記述したコードに微調整したPTMC(Pre-trained Models of Code)の対角的ロバスト性を評価するための実証的研究を紹介する。
2つのデータセット、2つの最先端PTMC、2つの堅牢性評価基準、3つのメトリクスを実験で用いた。
論文 参考訳(メタデータ) (2024-11-15T20:25:32Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - Whodunit: Classifying Code as Human Authored or GPT-4 Generated -- A
case study on CodeChef problems [0.13124513975412253]
コードスタイメトリーと機械学習を用いて、GPT-4の生成したコードと人間によるコードとを区別する。
我々のデータセットは、CodeChefの人間認可ソリューションと、GPT-4で生成されたAI認可ソリューションから構成される。
本研究は, GPT-4生成コードと人為的なコードとを区別する上で, コードスタイメトリーは有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2024-03-06T19:51:26Z) - Comparing large language models and human programmers for generating programming code [0.0]
GPT-4は、Gemini UltraやClaude 2など、他の大きな言語モデルよりも大幅に優れている。
この研究で評価されたほとんどのLeetCodeとGeeksforGeeksのコーディングコンテストにおいて、最適のプロンプト戦略を採用するGPT-4は、人間の参加者の85%を上回っている。
論文 参考訳(メタデータ) (2024-03-01T14:43:06Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - AI-assisted coding: Experiments with GPT-4 [0.22366638308792727]
GPT-4は、かなりのカバレッジでテストを生成することができるが、ほとんどのテストは関連するコードに適用されない。
これらの結果は、AIコーディングツールは非常に強力であるが、結果の妥当性と正確性を保証するためには、まだ人間を必要とすることを示唆している。
論文 参考訳(メタデータ) (2023-04-25T22:59:01Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。