論文の概要: LLM Code Smells: A Taxonomy and Detection Approach
- arxiv url: http://arxiv.org/abs/2605.22976v1
- Date: Thu, 21 May 2026 19:10:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.069989
- Title: LLM Code Smells: A Taxonomy and Detection Approach
- Title(参考訳): LLM Code Smells: 分類と検出のアプローチ
- Authors: Zacharie Chenail-Larcher, Brahim Mahmoudi, Naouel Moha, Quentin Stiévenart, Florent Avellaneda,
- Abstract要約: 大規模言語モデル(LLM)は、様々な目的のためにソフトウェアシステムに統合されつつある。
本稿では, 自己完結型分類法と, 9種類のLDMコードの臭いのカタログについて述べる。
また、検出のための静的ソースコード解析ツールであるSpecDetect4LLMも作成しています。
- 参考スコア(独自算出の注目度): 4.9057727342672095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly integrated into software systems for diverse purposes, due to their versatility, flexibility, and ability to simulate human reasoning to some extent. However, poor integration of LLM inference in source code can undermine software system quality. Therefore, inadequate LLM integration coding practices must be documented to help developers mitigate such issues. Following our earlier work on LLM code smells, this paper consolidates and refines the concept by presenting a self-contained taxonomy and a catalog of nine LLM code smells. We also create SpecDetect4LLM, a static source code analysis tool for their detection, and conduct extensive empirical evaluations of its detection effectiveness (precision and recall) as well as the prevalence of LLM code smells across 692 open-source software projects (171,194 source files). Our results show that LLM code smells affect 73.5% of the analyzed systems, with a detection precision of 91.3% and a recall of 71.8%.
- Abstract(参考訳): 大きな言語モデル(LLM)は、その汎用性、柔軟性、そしてある程度の人間の推論をシミュレートする能力のために、様々な目的のためにソフトウェアシステムに統合されつつある。
しかし、ソースコードにおけるLLM推論の貧弱な統合は、ソフトウェアシステムの品質を損なう可能性がある。
したがって、開発者がそのような問題を緩和するためには、不十分なLLM統合コーディングプラクティスを文書化する必要がある。
LLMコードの臭いに関するこれまでの研究に続いて、本論文は、自己完結した分類法と9つのLCMコードの臭いのカタログを提示することにより、概念を統合・洗練する。
また、検出のための静的ソースコード解析ツールであるSpecDetect4LLMを作成し、その検出の有効性(精度とリコール)と、692のオープンソースプロジェクト(171,194のソースファイル)にわたるLCMコードの臭いの頻度を広範囲に評価する。
以上の結果から,LLMコードの臭いは解析システムの73.5%に影響を与え,検出精度は91.3%,リコール率は71.8%であった。
関連論文リスト
- Beyond Strict Rules: Assessing the Effectiveness of Large Language Models for Code Smell Detection [0.5249836059995157]
コードの臭いは、ソフトウェアの保守性に影響を与える可能性のあるコード品質の問題の兆候である。
本稿では,30のJavaプロジェクトにおいて,9つのコードの臭いを検出するための4つの大規模言語モデル(LLM)の有効性を評価する。
論文 参考訳(メタデータ) (2026-01-14T21:08:35Z) - Specification and Detection of LLM Code Smells [3.53563608080816]
我々は,LLMコードの臭いの概念を導入し,ソフトウェアシステムにおけるLLM推論に関連する5つの問題のあるコーディングプラクティスを定式化する。
検出ツールSpecDetect4AIを拡張して、新たに定義されたLLMコードの臭いをカバーし、200のオープンソースLLMシステムのデータセットでそれらの頻度を検証する。
論文 参考訳(メタデータ) (2025-12-19T19:24:56Z) - Investigating The Smells of LLM Generated Code [2.9232837969697965]
大きな言語モデル(LLM)は、プログラムコードを生成するためにますます使われています。
本研究では,LLM生成コードの品質を評価するシナリオベース手法を提案する。
論文 参考訳(メタデータ) (2025-10-03T14:09:55Z) - Is LLM-Generated Code More Maintainable \& Reliable than Human-Written Code? [4.893345190925178]
本研究では,LLM生成コードと人手書きコードの内部品質特性を比較した。
我々の分析によると、LLM生成コードにはバグが少なく、全体的な修正に労力がかかりません。
論文 参考訳(メタデータ) (2025-08-01T15:17:34Z) - Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。
本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文 参考訳(メタデータ) (2025-06-20T16:27:59Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - To Err is Machine: Vulnerability Detection Challenges LLM Reasoning [8.602355712876815]
脆弱性検出という,困難なコード推論タスクを提示する。
最新のSOTA(State-of-the-art)モデルでは,脆弱性検出評価では54.5%のバランスド精度しか報告されていない。
脆弱性検出を克服するためには、新しいモデル、新しいトレーニング方法、あるいはもっと実行固有の事前トレーニングデータが必要になるかもしれない。
論文 参考訳(メタデータ) (2024-03-25T21:47:36Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。