論文の概要: Specification and Detection of LLM Code Smells
- arxiv url: http://arxiv.org/abs/2512.18020v1
- Date: Fri, 19 Dec 2025 19:24:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.151808
- Title: Specification and Detection of LLM Code Smells
- Title(参考訳): LLM符号の仕様と検出
- Authors: Brahim Mahmoudi, Zacharie Chenail-Larcher, Naouel Moha, Quentin Stievenert, Florent Avellaneda,
- Abstract要約: 我々は,LLMコードの臭いの概念を導入し,ソフトウェアシステムにおけるLLM推論に関連する5つの問題のあるコーディングプラクティスを定式化する。
検出ツールSpecDetect4AIを拡張して、新たに定義されたLLMコードの臭いをカバーし、200のオープンソースLLMシステムのデータセットでそれらの頻度を検証する。
- 参考スコア(独自算出の注目度): 3.53563608080816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have gained massive popularity in recent years and are increasingly integrated into software systems for diverse purposes. However, poorly integrating them in source code may undermine software system quality. Yet, to our knowledge, there is no formal catalog of code smells specific to coding practices for LLM inference. In this paper, we introduce the concept of LLM code smells and formalize five recurrent problematic coding practices related to LLM inference in software systems, based on relevant literature. We extend the detection tool SpecDetect4AI to cover the newly defined LLM code smells and use it to validate their prevalence in a dataset of 200 open-source LLM systems. Our results show that LLM code smells affect 60.50% of the analyzed systems, with a detection precision of 86.06%.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年大きな人気を集め、多様な目的のためにソフトウェアシステムに統合されつつある。
しかし、ソースコードにそれらをうまく組み込むことは、ソフトウェアシステムの品質を損なう可能性がある。
しかし、私たちの知る限り、LLM推論のコーディングプラクティス特有のコードの臭いの正式なカタログはありません。
本稿では,LLMコードの臭いの概念を導入し,関連する文献に基づくソフトウェアシステムにおけるLLM推論に関連する5つの繰り返し問題のあるコーディングプラクティスを定式化する。
検出ツールSpecDetect4AIを拡張して、新たに定義されたLLMコードの臭いをカバーし、200のオープンソースLLMシステムのデータセットでそれらの頻度を検証する。
その結果,LLMコードの臭いは解析システムの60.50%に影響を与え,検出精度は86.06%であった。
関連論文リスト
- Beyond Strict Rules: Assessing the Effectiveness of Large Language Models for Code Smell Detection [0.5249836059995157]
コードの臭いは、ソフトウェアの保守性に影響を与える可能性のあるコード品質の問題の兆候である。
本稿では,30のJavaプロジェクトにおいて,9つのコードの臭いを検出するための4つの大規模言語モデル(LLM)の有効性を評価する。
論文 参考訳(メタデータ) (2026-01-14T21:08:35Z) - Investigating The Smells of LLM Generated Code [2.9232837969697965]
大きな言語モデル(LLM)は、プログラムコードを生成するためにますます使われています。
本研究では,LLM生成コードの品質を評価するシナリオベース手法を提案する。
論文 参考訳(メタデータ) (2025-10-03T14:09:55Z) - How Accurately Do Large Language Models Understand Code? [4.817546726074033]
大規模言語モデル(LLM)は、コードの修復やテストといった開発後のタスクでますます使われています。
コードの理解の定量化は、その抽象的な性質と標準化されたメトリクスの欠如のために難しい。
本稿では,LLMのコード理解能力に関する大規模な実証的研究を行った。
論文 参考訳(メタデータ) (2025-04-06T05:59:29Z) - ExeCoder: Empowering Large Language Models with Executability Representation for Code Translation [57.604506522287814]
既存の大きな言語モデル(LLM)は、事前トレーニング中にのみコードのコンテキスト意味を学習する。
機能的セマンティクスや構文構造,変数依存性といった実行可能性表現を活用するために,ExeCoderを提案する。
ExeCoderは、既存のオープンソースコードLLMを10.88%以上、38.78%以上、27.44%以上、42.97%以上という、2つのメトリクスで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-01-30T16:18:52Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Combining LLM Code Generation with Formal Specifications and Reactive Program Synthesis [0.7580487359358722]
大規模言語モデル(LLM)は精度に苦しむが、リスクの高いアプリケーションには適さない。
コード生成を LLM で処理する部分と,形式的なメソッドベースのプログラム合成で処理する部分の2つに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-09-18T15:59:06Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Towards Understanding the Characteristics of Code Generation Errors Made by Large Language Models [10.519984835232359]
大規模言語モデル(LLM)はコード生成において前例のない機能を示している。
我々は,HumanEvalデータセット上の6つの代表的なLCMに対して,コード生成エラーの詳細な解析を行った。
LLMによるコード生成エラーの発見と修正には,いくつかの課題が浮かび上がっている。
論文 参考訳(メタデータ) (2024-06-13T01:29:52Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。