論文の概要: Investigating The Smells of LLM Generated Code
- arxiv url: http://arxiv.org/abs/2510.03029v1
- Date: Fri, 03 Oct 2025 14:09:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.418448
- Title: Investigating The Smells of LLM Generated Code
- Title(参考訳): LLM生成コードの臭いを調査する
- Authors: Debalina Ghosh Paul, Hong Zhu, Ian Bayley,
- Abstract要約: 大きな言語モデル(LLM)は、プログラムコードを生成するためにますます使われています。
本研究では,LLM生成コードの品質を評価するシナリオベース手法を提案する。
- 参考スコア(独自算出の注目度): 2.9232837969697965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context: Large Language Models (LLMs) are increasingly being used to generate program code. Much research has been reported on the functional correctness of generated code, but there is far less on code quality. Objectives: In this study, we propose a scenario-based method of evaluating the quality of LLM-generated code to identify the weakest scenarios in which the quality of LLM generated code should be improved. Methods: The method measures code smells, an important indicator of code quality, and compares them with a baseline formed from reference solutions of professionally written code. The test dataset is divided into various subsets according to the topics of the code and complexity of the coding tasks to represent different scenarios of using LLMs for code generation. We will also present an automated test system for this purpose and report experiments with the Java programs generated in response to prompts given to four state-of-the-art LLMs: Gemini Pro, ChatGPT, Codex, and Falcon. Results: We find that LLM-generated code has a higher incidence of code smells compared to reference solutions. Falcon performed the least badly, with a smell increase of 42.28%, followed by Gemini Pro (62.07%), ChatGPT (65.05%) and finally Codex (84.97%). The average smell increase across all LLMs was 63.34%, comprising 73.35% for implementation smells and 21.42% for design smells. We also found that the increase in code smells is greater for more complex coding tasks and for more advanced topics, such as those involving object-orientated concepts. Conclusion: In terms of code smells, LLM's performances on various coding task complexities and topics are highly correlated to the quality of human written code in the corresponding scenarios. However, the quality of LLM generated code is noticeably poorer than human written code.
- Abstract(参考訳): コンテキスト: プログラムコードを生成するために、LLM(Large Language Models)がますます使われています。
生成されたコードの機能的正確性に関する多くの研究が報告されているが、コード品質については、はるかに少ない。
目的: 本研究では, LLM生成コードの品質を改善するために, LLM生成コードの品質を評価するシナリオベース手法を提案する。
方法: この方法は、コードの品質を示す重要な指標であるコードの臭いを測定し、専門家が書いたコードの参照ソリューションから作られたベースラインと比較する。
テストデータセットは、コード生成にLLMを使用するさまざまなシナリオを表現するために、コードのトピックとコーディングタスクの複雑さに応じて、さまざまなサブセットに分割される。
また、この目的のために自動テストシステムを提案し、Gemini Pro、ChatGPT、Codex、Falconの4つの最先端LLMへのプロンプトに応じて生成されたJavaプログラムの実験を報告する。
結果: LLM生成したコードは, 参照解に比べてコードの臭いの発生頻度が高いことがわかった。
ファルコンの臭気は42.28%増加し、続いてジェミニ・プロ(62.07%)、チャットGPT(65.05%)、コーデックス(84.97%)が続いた。
全LLMの平均臭気増加率は63.34%であり、実装臭気は73.35%、設計臭気は21.42%であった。
また、コードの臭いの増加は、より複雑なコーディングタスクや、オブジェクト指向の概念を含むようなより高度なトピックにとってより大きいことがわかりました。
結論: コードの臭いに関しては,コーディングタスクの複雑度やトピックに関するLCMのパフォーマンスは,対応するシナリオにおける人間の記述コードの品質と強く相関している。
しかし、LLM生成コードの品質は、人間の書いたコードよりも著しく劣っている。
関連論文リスト
- Clean Code, Better Models: Enhancing LLM Performance with Smell-Cleaned Dataset [13.23492570818459]
この研究は、コード臭いの観点からデータセットの品質を評価し改善する最初の体系的な研究である。
コード臭を自動的に除去する,LCMベースのコード臭除去ツールSmellCCを提案する。
論文 参考訳(メタデータ) (2025-08-16T07:40:58Z) - Is LLM-Generated Code More Maintainable \& Reliable than Human-Written Code? [4.893345190925178]
本研究では,LLM生成コードと人手書きコードの内部品質特性を比較した。
我々の分析によると、LLM生成コードにはバグが少なく、全体的な修正に労力がかかりません。
論文 参考訳(メタデータ) (2025-08-01T15:17:34Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - HumanEvalComm: Benchmarking the Communication Competence of Code Generation for LLMs and LLM Agent [2.8391355909797644]
大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。
LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。
論文 参考訳(メタデータ) (2024-05-31T22:06:18Z) - CodeHalu: Investigating Code Hallucinations in LLMs via Execution-based Verification [73.66920648926161]
本稿では,コード幻覚の概念を導入し,実行検証に基づくコード幻覚の分類法を提案する。
本稿では,コード幻覚の検出と定量化を目的とした,CodeHaluと呼ばれる動的検出アルゴリズムを提案する。
また、699のタスクから8,883のサンプルを含むCodeHaluEvalベンチマークを導入し、コードの幻覚を体系的に定量的に評価する。
論文 参考訳(メタデータ) (2024-04-30T23:56:38Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。