Fugu-MT 論文翻訳(概要): Unveiling Inefficiencies in LLM-Generated Code: Toward a Comprehensive Taxonomy

論文の概要: Unveiling Inefficiencies in LLM-Generated Code: Toward a Comprehensive Taxonomy

arxiv url: http://arxiv.org/abs/2503.06327v2
Date: Sat, 15 Mar 2025 03:59:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 12:43:42.417859
Title: Unveiling Inefficiencies in LLM-Generated Code: Toward a Comprehensive Taxonomy
Title（参考訳）: LLM生成コードの非効率化:包括的分類学を目指して
Authors: Altaf Allah Abbassi, Leuson Da Silva, Amin Nikanjam, Foutse Khomh,
Abstract要約: 大きな言語モデル(LLM)は、将来性のある結果を伴う自動コード生成に広く採用されている。以前の研究では、LLM生成コードを評価し、冗長性、保守性に乏しい、最適以下のパフォーマンスなど、さまざまな品質の問題を特定していた。この研究は、コードLLMの改善、コード生成の品質と効率の向上も導くことができる。
参考スコア（独自算出の注目度）: 11.185300073739098
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are widely adopted for automated code generation with promising results. Although prior research has assessed LLM-generated code and identified various quality issues -- such as redundancy, poor maintainability, and sub-optimal performance a systematic understanding and categorization of these inefficiencies remain unexplored. Without such knowledge, practitioners struggle to optimize LLM-generated code for real-world applications, limiting its adoption. This study can also guide improving code LLMs, enhancing the quality and efficiency of code generation. Therefore, in this study, we empirically investigate inefficiencies in LLM-generated code by state-of-the-art models, i.e., CodeLlama, DeepSeek-Coder, and CodeGemma. To do so, we analyze 492 generated code snippets in the HumanEval++ dataset. We then construct a taxonomy of inefficiencies in LLM-generated code that includes 5 categories General Logic, Performance, Readability, Maintainability, and Errors) and 19 subcategories of inefficiencies. We then validate the proposed taxonomy through an online survey with 58 LLM practitioners and researchers. Our study indicates that logic and performance-related inefficiencies are the most popular, relevant, and frequently co-occur and impact overall code quality inefficiency. Our taxonomy provides a structured basis for evaluating the quality LLM-generated code and guiding future research to improve code generation efficiency.
Abstract（参考訳）: 大きな言語モデル(LLM)は、将来性のある結果を伴う自動コード生成に広く採用されている。以前の研究では、LCMの生成したコードを評価し、冗長性、保守性が悪いこと、最適でないパフォーマンスなど、さまざまな品質の問題を特定しているが、これらの非効率性の体系的な理解と分類は未解決のままである。このような知識がなければ、実践者はLLM生成コードを現実世界のアプリケーションに最適化するのに苦労し、採用を制限します。この研究は、コードLLMの改善、コード生成の品質と効率の向上も導くことができる。そこで本研究では,LLM生成コードの非効率性について,CodeLlama,DeepSeek-Coder,CodeGemmaなどの最先端モデルを用いて実証検討を行った。そのために、HumanEval++データセットの492生成コードスニペットを分析します。次に, LLM生成コードの非効率性の分類を構築し, 汎用論理, 性能, 可読性, 保守性, エラーの5つのカテゴリと19の非効率のサブカテゴリを含む。次に,58名のLCM実践者と研究者によるオンライン調査を通じて,提案した分類法を検証した。我々の研究は、ロジックとパフォーマンス関連の非効率が最も人気があり、関連があり、しばしば共起し、全体的なコード品質の非効率に影響を与えることを示唆している。我々の分類学は、LLM生成コードの品質を評価し、コード生成効率を向上させるための将来の研究を導くための構造化された基盤を提供する。

関連論文リスト

Large Language Models for Code Generation: A Comprehensive Survey of Challenges, Techniques, Evaluation, and Applications [0.9105696129628794]
大規模言語モデル(LLM)は多くの分野においてその顕著な能力を示している。この調査は、LLMがユーザに対して、技術的背景に関係なく、ヒューマン言語を使用して実行可能なコードを自動的に生成する方法に焦点を当てている。
論文参考訳（メタデータ） (2025-03-03T07:17:30Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。 CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文参考訳（メタデータ） (2024-10-08T01:36:15Z)
A Survey on Evaluating Large Language Models in Code Generation Tasks [30.256255254277914]
本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
論文参考訳（メタデータ） (2024-08-29T12:56:06Z)
A Performance Study of LLM-Generated Code on Leetcode [1.747820331822631]
本研究では,Large Language Models (LLM) によるコード生成の効率性を評価する。モデル温度や成功率などの要因とコード性能への影響を考慮し、18個のLLMを比較した。 LLMは、人間によって書かれたコードよりも平均的に、より効率的なコードを生成することができる。
論文参考訳（メタデータ） (2024-07-31T13:10:03Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
On Evaluating the Efficiency of Source Code Generated by LLMs [31.8121544062256]
より効率的なコードは、LCM支援プログラミングで完了したプログラムやソフトウェアの性能と実行効率を向上させる。まず,HumanEval と MBPP の2つのベンチマークで LLM が生成したコードの有効性を評価する。そして,オンライン審査プラットフォームLeetCodeから,より難しい評価を行うために,一連のプログラミング問題を選択する。
論文参考訳（メタデータ） (2024-04-09T05:59:39Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。