論文の概要: Clean Code, Better Models: Enhancing LLM Performance with Smell-Cleaned Dataset
- arxiv url: http://arxiv.org/abs/2508.11958v1
- Date: Sat, 16 Aug 2025 07:40:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.484537
- Title: Clean Code, Better Models: Enhancing LLM Performance with Smell-Cleaned Dataset
- Title(参考訳): クリーンなコードとモデルの改善: Smell-Cleaned DatasetによるLCMパフォーマンス向上
- Authors: Zhipeng Xue, Xiaoting Zhang, Zhipeng Gao, Xing Hu, Shan Gao, Xin Xia, Shanping Li,
- Abstract要約: この研究は、コード臭いの観点からデータセットの品質を評価し改善する最初の体系的な研究である。
コード臭を自動的に除去する,LCMベースのコード臭除去ツールSmellCCを提案する。
- 参考スコア(独自算出の注目度): 13.23492570818459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Large Language Models (LLMs) have demonstrated great potential in code-related tasks. However, most research focuses on improving the output quality of LLMs (e.g., correctness), and less attention has been paid to the LLM input (e.g., the training code quality). Given that code smells are widely existed in practice and can negatively impact software maintainability and readability, this study takes the first systematic research to assess and improve dataset quality in terms of code smells. In this work, we first conduct a preliminary study to explore the presence of code smells in a popular benchmark dataset (i.e., CodeSearchNet-Python}) and evaluate the output of several popular LLMs (i.e., DeepSeek-Coder, CodeLlama, and MagiCoder), revealing that code smell issues extensively exist in LLM's input (e.g., benchmark dataset) and output (e.g., generated code). We then conduct our systematic research by taking three main steps: Firstly, we propose an LLM-based code smell cleaning tool, named SmellCC, which automatically refactors and removes code smells. To evaluate the correctness of the code refactoring, we construct a test set of 50 repositories sourced from the CodeSearchNet-Python benchmark for functional testing. Then we apply our curated smell-cleaned dataset to fine-tune two LLMs (i.e., DeepSeek-V2 and Qwen-Coder) to explore their potential for generating high-quality code. Thirdly, we investigate the impact of code smells on two downstream tasks: code completion and code search. Lastly, we derive several actionable implications for software engineering researchers and industry practitioners from our findings.
- Abstract(参考訳): LLM(Large Language Models)は、コード関連のタスクにおいて大きな可能性を証明している。
しかし、ほとんどの研究はLLMの出力品質の改善(例えば、正確性)に焦点を当てており、LLMの入力(例えば、トレーニングコードの品質)には注意が払われていない。
コードの臭いは、実際に広く存在し、ソフトウェアの保守性と可読性に悪影響を及ぼす可能性があることを考慮し、コード臭いの観点からデータセットの品質を評価し改善する最初の体系的な研究を行う。
本研究では、まず、人気のあるベンチマークデータセット(例えば、CodeSearchNet-Python})におけるコードの臭いの有無を調査し、いくつかの人気のあるLCM(例えば、DeepSeek-Coder、CodeLlama、MagiCoder)の出力を評価し、LCMの入力(例えば、ベンチマークデータセット)と出力(例えば、生成されたコード)にコードの臭いが広範囲に存在することを明らかにする。
まず、LLMベースのコード臭い浄化ツールであるSmellCCを提案し、コードの臭いを自動的にリファクタリングし除去します。
コードリファクタリングの正確性を評価するため,機能テストのためのCodeSearchNet-Pythonベンチマークから得られた50のリポジトリのテストセットを構築した。
次に、キュレートされた臭いを清浄したデータセットを2つのLSM(DeepSeek-V2とQwen-Coder)に微調整して、高品質なコードを生成する可能性を探る。
第三に、コードの臭いが下流の2つのタスク、すなわちコード補完とコード検索に与える影響について検討する。
最後に、我々の発見から、ソフトウェア工学研究者や業界実践者に対して、いくつかの実用的な意味合いを導き出します。
関連論文リスト
- How Propense Are Large Language Models at Producing Code Smells? A Benchmarking Study [45.126233498200534]
コードの臭いを生成するための大規模言語モデルの妥当性を評価するためのベンチマークであるCodeSmellEvalを紹介する。
当社のベンチマークには、Propensity Smelly Score (PSC) と、メソッドレベルのコードの臭いを収集したデータセットであるCodeSmellDataが含まれている。
CodeSmellEvalの使用を実証するために,CodeLlamaとMistralの2つの最先端LLMを用いてケーススタディを行った。
論文 参考訳(メタデータ) (2024-12-25T21:56:35Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。