論文の概要: Is LLM-Generated Code More Maintainable \& Reliable than Human-Written Code?
- arxiv url: http://arxiv.org/abs/2508.00700v1
- Date: Fri, 01 Aug 2025 15:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.927989
- Title: Is LLM-Generated Code More Maintainable \& Reliable than Human-Written Code?
- Title(参考訳): LLM生成コードは人書きコードよりも信頼性が高いか?
- Authors: Alfred Santa Molison, Marcia Moraes, Glaucia Melo, Fabio Santos, Wesley K. G. Assuncao,
- Abstract要約: 本研究では,LLM生成コードと人手書きコードの内部品質特性を比較した。
我々の分析によると、LLM生成コードにはバグが少なく、全体的な修正に労力がかかりません。
- 参考スコア(独自算出の注目度): 4.893345190925178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: The rise of Large Language Models (LLMs) in software development has opened new possibilities for code generation. Despite the widespread use of this technology, it remains unclear how well LLMs generate code solutions in terms of software quality and how they compare to human-written code. Aims: This study compares the internal quality attributes of LLM-generated and human-written code. Method: Our empirical study integrates datasets of coding tasks, three LLM configurations (zero-shot, few-shot, and fine-tuning), and SonarQube to assess software quality. The dataset comprises Python code solutions across three difficulty levels: introductory, interview, and competition. We analyzed key code quality metrics, including maintainability and reliability, and the estimated effort required to resolve code issues. Results: Our analysis shows that LLM-generated code has fewer bugs and requires less effort to fix them overall. Interestingly, fine-tuned models reduced the prevalence of high-severity issues, such as blocker and critical bugs, and shifted them to lower-severity categories, but decreased the model's performance. In competition-level problems, the LLM solutions sometimes introduce structural issues that are not present in human-written code. Conclusion: Our findings provide valuable insights into the quality of LLM-generated code; however, the introduction of critical issues in more complex scenarios highlights the need for a systematic evaluation and validation of LLM solutions. Our work deepens the understanding of the strengths and limitations of LLMs for code generation.
- Abstract(参考訳): 背景: ソフトウェア開発における大規模言語モデル(LLM)の台頭は、コード生成の新しい可能性を開いた。
この技術が広く使われているにもかかわらず、LLMがソフトウェアの品質や人手によるコードとどのように比較して、どの程度のコードソリューションを生成するかは、いまだに不明である。
Aims: 本研究は, LLM生成コードと人手書きコードの内部品質特性を比較した。
方法:我々の実証研究は、コーディングタスクのデータセット、3つのLCM構成(ゼロショット、少数ショット、微調整)とSonarQubeを統合して、ソフトウェアの品質を評価する。
データセットは、イントロダクトリ、インタビュー、コンペティションという3つの難易度でPythonのコードソリューションで構成されている。
私たちは、保守性と信頼性、そしてコードの問題を解決するのに必要な見積の労力など、主要なコード品質指標を分析しました。
結果: 私たちの分析によると、LLMの生成したコードはバグが少なく、全体的な修正に労力がかかりません。
興味深いことに、微調整されたモデルでは、ブロッカやクリティカルバグなどの高重度問題の頻度を減らし、それらを低重度カテゴリに移行したが、モデルの性能は低下した。
競合レベルの問題では、LLMソリューションは人間が書いたコードに存在しない構造上の問題を引き起こすことがある。
結論: 私たちの発見は,LLM生成コードの品質に関する貴重な洞察を提供するものですが,より複雑なシナリオにおける重要な問題の導入は,LLMソリューションの体系的評価と検証の必要性を浮き彫りにしています。
コード生成のためのLLMの長所と短所の理解を深める。
関連論文リスト
- Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。
本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文 参考訳(メタデータ) (2025-06-20T16:27:59Z) - Unveiling Inefficiencies in LLM-Generated Code: Toward a Comprehensive Taxonomy [11.185300073739098]
大きな言語モデル(LLM)は、将来性のある結果を伴う自動コード生成に広く採用されている。
以前の研究では、LLM生成コードを評価し、冗長性、保守性に乏しい、最適以下のパフォーマンスなど、さまざまな品質の問題を特定していた。
この研究は、コードLLMの改善、コード生成の品質と効率の向上も導くことができる。
論文 参考訳(メタデータ) (2025-03-08T19:51:52Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Precision or Peril: Evaluating Code Quality from Quantized Large Language Models [0.5249805590164902]
量子化は、大規模言語モデルのメモリオーバーヘッドを軽減する手段として登場した。
本研究の目的は、様々なメトリクスを用いて、より小さなLCMのコード生成能力を評価することである。
論文 参考訳(メタデータ) (2024-11-16T01:31:29Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - HumanEvalComm: Benchmarking the Communication Competence of Code Generation for LLMs and LLM Agent [2.8391355909797644]
大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。
LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。
論文 参考訳(メタデータ) (2024-05-31T22:06:18Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Benchmarking and Explaining Large Language Model-based Code Generation:
A Causality-Centric Approach [12.214585409361126]
大規模言語モデル(LLM)ベースのコード生成は複雑で強力なブラックボックスモデルである。
本稿では,プロンプトと生成されたコードの因果グラフに基づく新しい表現を提案する。
我々は,12以上の迅速な調整戦略で3つの人気のあるLCMを研究することで,我々のフレームワークが提供できる洞察について説明する。
論文 参考訳(メタデータ) (2023-10-10T14:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。