Fugu-MT 論文翻訳(概要): How Propense Are Large Language Models at Producing Code Smells? A Benchmarking Study

論文の概要: How Propense Are Large Language Models at Producing Code Smells? A Benchmarking Study

arxiv url: http://arxiv.org/abs/2412.18989v1
Date: Wed, 25 Dec 2024 21:56:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 21:44:05.033191
Title: How Propense Are Large Language Models at Producing Code Smells? A Benchmarking Study
Title（参考訳）: コードスメル生成における大規模言語モデルの役割 : ベンチマークによる検討
Authors: Alejandro Velasco, Daniel Rodriguez-Cardenas, David N. Palacio, Luftar Rahman Alif, Denys Poshyvanyk,
Abstract要約: コードの臭いを生成するための大規模言語モデルの妥当性を評価するためのベンチマークであるCodeSmellEvalを紹介する。当社のベンチマークには、Propensity Smelly Score (PSC) と、メソッドレベルのコードの臭いを収集したデータセットであるCodeSmellDataが含まれている。 CodeSmellEvalの使用を実証するために,CodeLlamaとMistralの2つの最先端LLMを用いてケーススタディを行った。
参考スコア（独自算出の注目度）: 45.126233498200534
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Language Models (LLMs) have shown significant potential in automating software engineering tasks, particularly in code generation. However, current evaluation benchmarks, which primarily focus on accuracy, fall short in assessing the quality of the code generated by these models, specifically their tendency to produce code smells. To address this limitation, we introduce CodeSmellEval, a benchmark designed to evaluate the propensity of LLMs for generating code smells. Our benchmark includes a novel metric: Propensity Smelly Score (PSC), and a curated dataset of method-level code smells: CodeSmellData. To demonstrate the use of CodeSmellEval, we conducted a case study with two state-of-the-art LLMs, CodeLlama and Mistral. The results reveal that both models tend to generate code smells, such as simplifiable-condition and consider-merging-isinstance. These findings highlight the effectiveness of our benchmark in evaluating LLMs, providing valuable insights into their reliability and their propensity to introduce code smells in code generation tasks.
Abstract（参考訳）: 大規模言語モデル(LLM)は、特にコード生成において、ソフトウェアエンジニアリングタスクの自動化に大きな可能性を示している。しかしながら、現在の評価ベンチマークは、主に正確性に焦点を当てているが、これらのモデルによって生成されたコードの品質、特にコードの臭いを発生させる傾向を評価するには不足している。この制限に対処するために、コード臭いを生成するためのLLMの妥当性を評価するために設計されたベンチマークであるCodeSmellEvalを紹介する。当社のベンチマークには、Propensity Smelly Score (PSC) と、メソッドレベルのコードの臭いを収集したデータセットであるCodeSmellDataが含まれている。 CodeSmellEvalの使用を実証するために,CodeLlamaとMistralの2つの最先端LLMを用いてケーススタディを行った。その結果、両モデルとも、簡易な条件や検討統合等、コードの臭いを発生させる傾向があることが明らかとなった。これらの結果は、LCMの評価におけるベンチマークの有効性を強調し、コード生成タスクにコードの臭いを導入するための信頼性と妥当性に関する貴重な洞察を提供する。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
CoDet-M4: Detecting Machine-Generated Code in Multi-Lingual, Multi-Generator and Multi-Domain Settings [32.72039589832989]
大規模言語モデル(LLM)はコード生成に革命をもたらし、プログラミングを驚くほどの効率で自動化した。これらの進歩はプログラミングのスキル、倫理、評価の整合性に挑戦し、説明責任と標準を維持するのに欠かせないLCM生成コードを検出する。複数のプログラミング言語、コードジェネレータ、ドメインにまたがる人間とLLMで書かれたコードを区別できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-17T21:41:37Z)
EnseSmells: Deep ensemble and programming language models for automated code smells detection [3.974095344344234]
ソフトウェアソースコードの匂いは、最適な設計と実装上の決定を示す。本稿では,構造的特徴と統計的意味論の融合に重きを置く深層学習アーキテクチャを構築するための新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-07T15:35:19Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
CodeSift: An LLM-Based Reference-Less Framework for Automatic Code Validation [3.22798929957223]
大規模言語モデル(LLM)はコード生成を大いに促進してきたが、生成されたコードの機能的正確性を保証することは依然として課題である。従来のバリデーション手法は、多くの場合、大量のコードに対して時間がかかり、エラーが発生し、実用的ではない。コード検証のファーストラインフィルタとしてLLMを活用する新しいフレームワークであるCodeSiftを紹介します。
論文参考訳（メタデータ） (2024-08-28T08:32:21Z)
COAST: Enhancing the Code Debugging Ability of LLMs through Communicative Agent Based Data Synthesis [29.667170755786508]
大規模言語モデルの能力を評価するためのベンチマークであるEVALを紹介する。我々は,マルチエージェントシステムを用いて高品質な学習データを生成する,コミュニケーティブエージェントベースのデータ合成フレームワークを提案する。以上の結果から,COAST生成データは人為的・GPT-4生成データよりも優れていた。
論文参考訳（メタデータ） (2024-08-09T11:35:44Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文参考訳（メタデータ） (2024-05-29T16:57:33Z)
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
原符号とLLM書き換え版との類似性に基づく新しいゼロショット合成符号検出器を提案する。以上の結果から,既存のSOTA合成コンテンツ検出装置よりも顕著な改善が得られた。
論文参考訳（メタデータ） (2024-05-25T08:57:28Z)
Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文参考訳（メタデータ） (2024-02-20T13:56:38Z)
CodeCoT: Tackling Code Syntax Errors in CoT Reasoning for Code Generation [6.139760107605468]
チェーン・オブ・シント(CoT)は、複雑な推論タスクにおいて特に有効であるとして、NLPの画期的なツールとして登場した。コード生成のための自己検査プロセスとCoTを統合したCode Chain-of-Thought(CodeCoT)を提案する。
論文参考訳（メタデータ） (2023-08-17T04:58:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。