論文の概要: A Causal Perspective on Measuring, Explaining and Mitigating Smells in \llm-Generated Code
- arxiv url: http://arxiv.org/abs/2511.15817v1
- Date: Wed, 19 Nov 2025 19:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.344636
- Title: A Causal Perspective on Measuring, Explaining and Mitigating Smells in \llm-Generated Code
- Title(参考訳): \llm生成符号におけるスメルの測定・説明・緩和に関する因果的視点
- Authors: Alejandro Velasco, Daniel Rodriguez-Cardenas, Dipin Khati, David N. Palacio, Luftar Rahman Alif, Denys Poshyvanyk,
- Abstract要約: Propensity Smelly Score (PSC) は、特定の臭いの種類を生成する確率を推定する計量である。
我々は、生成戦略、モデルサイズ、モデルアーキテクチャ、および生成したコードの構造特性をいかに形成するかを識別する。
PSCは、開発者がモデルの振る舞いを解釈し、コード品質を評価するのに役立つ。
- 参考スコア(独自算出の注目度): 49.09545217453401
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in large language models (LLMs) have accelerated their adoption in software engineering contexts. However, concerns persist about the structural quality of the code they produce. In particular, LLMs often replicate poor coding practices, introducing code smells (i.e., patterns that hinder readability, maintainability, or design integrity). Although prior research has examined the detection or repair of smells, we still lack a clear understanding of how and when these issues emerge in generated code. This paper addresses this gap by systematically measuring, explaining and mitigating smell propensity in LLM-generated code. We build on the Propensity Smelly Score (PSC), a probabilistic metric that estimates the likelihood of generating particular smell types, and establish its robustness as a signal of structural quality. Using PSC as an instrument for causal analysis, we identify how generation strategy, model size, model architecture and prompt formulation shape the structural properties of generated code. Our findings show that prompt design and architectural choices play a decisive role in smell propensity and motivate practical mitigation strategies that reduce its occurrence. A user study further demonstrates that PSC helps developers interpret model behavior and assess code quality, providing evidence that smell propensity signals can support human judgement. Taken together, our work lays the groundwork for integrating quality-aware assessments into the evaluation and deployment of LLMs for code.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、ソフトウェア工学の文脈での採用を加速している。
しかしながら、それらが生成するコードの構造的品質に関する懸念が続いている。
特に、LLMはコードの臭い(可読性、保守性、設計の整合性を阻害するパターン)を導入して、悪いコーディングプラクティスを再現することが多い。
以前の研究では、臭いの検出や修復が検討されていたが、これらの問題が生成されたコードでどのように、いつ発生するかを明確に理解できていない。
本稿では,LLM生成符号の匂いの再現性をシステマティックに測定し,説明し,緩和することにより,このギャップを解消する。
我々は,特定の匂いを発生させる確率を推定する確率的尺度であるPSC(Propensity Smelly Score)を構築し,その頑健さを構造的品質の信号として確立する。
因果解析の手段としてPSCを用いると、生成戦略、モデルサイズ、モデルアーキテクチャ、生成したコードの構造的特性をいかに形成するかが分かる。
以上の結果から, 迅速な設計選択と建築選択が, 匂いの再現性において決定的な役割を担い, 発生を減少させる実践的緩和戦略を動機付けていることが明らかとなった。
ユーザスタディでは、PSCが開発者がモデルの振る舞いを解釈し、コード品質を評価するのに役立つことを示し、匂いの再現性信号が人間の判断を裏付ける証拠を提供する。
まとめると、コードのためのLCMの評価とデプロイに品質に配慮した評価を統合するための基礎となる作業である。
関連論文リスト
- Taming Imperfect Process Verifiers: A Sampling Perspective on Backtracking [54.43083499412643]
言語モデルの生成能力をプロセス検証器と組み合わせたテストタイムアルゴリズムは、新しい推論能力を引き出すための有望なレバーを提供する。
提案手法は, 理論的に根拠付きバックトラックを用いて, 検証誤差に対して, 確実な堅牢性を実現するための新しいプロセス誘導型テスト時間サンプリングアルゴリズムであるVGBを導入する。
論文 参考訳(メタデータ) (2025-10-03T16:21:14Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - EnseSmells: Deep ensemble and programming language models for automated code smells detection [3.974095344344234]
ソフトウェアソースコードの匂いは、最適な設計と実装上の決定を示す。
本稿では,構造的特徴と統計的意味論の融合に重きを置く深層学習アーキテクチャを構築するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-07T15:35:19Z) - How Propense Are Large Language Models at Producing Code Smells? A Benchmarking Study [45.126233498200534]
コードの臭いを生成するための大規模言語モデルの妥当性を評価するためのベンチマークであるCodeSmellEvalを紹介する。
当社のベンチマークには、Propensity Smelly Score (PSC) と、メソッドレベルのコードの臭いを収集したデータセットであるCodeSmellDataが含まれている。
CodeSmellEvalの使用を実証するために,CodeLlamaとMistralの2つの最先端LLMを用いてケーススタディを行った。
論文 参考訳(メタデータ) (2024-12-25T21:56:35Z) - Helping LLMs Improve Code Generation Using Feedback from Testing and Static Analysis [3.892345568697058]
大規模言語モデル(LLM)は人工知能分野における最も有望な発展の1つである。
開発者は定期的にLCMにコードスニペットの生成を依頼し、生産性の向上に加えて、オーナシップ、プライバシ、正確性、セキュリティ問題も導入する。
以前の作業では、商用のLLMによって生成されたコードが、脆弱性やバグ、コードの臭いなど、安全でないことが強調されていた。
論文 参考訳(メタデータ) (2024-12-19T13:34:14Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Benchmarking and Explaining Large Language Model-based Code Generation:
A Causality-Centric Approach [12.214585409361126]
大規模言語モデル(LLM)ベースのコード生成は複雑で強力なブラックボックスモデルである。
本稿では,プロンプトと生成されたコードの因果グラフに基づく新しい表現を提案する。
我々は,12以上の迅速な調整戦略で3つの人気のあるLCMを研究することで,我々のフレームワークが提供できる洞察について説明する。
論文 参考訳(メタデータ) (2023-10-10T14:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。