論文の概要: Quality Assurance of LLM-generated Code: Addressing Non-Functional Quality Characteristics
- arxiv url: http://arxiv.org/abs/2511.10271v1
- Date: Fri, 14 Nov 2025 01:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.786485
- Title: Quality Assurance of LLM-generated Code: Addressing Non-Functional Quality Characteristics
- Title(参考訳): LLM生成符号の品質保証--非Functional Quality特性に対応して-
- Authors: Xin Sun, Daniel Ståhl, Kristian Sandahl, Christoph Kessler,
- Abstract要約: 既存の研究は、生成したコードが品質に合格するかどうかではなく、テストに合格するかどうかに重点を置いている。
本研究は,108論文の体系的レビュー,複数組織の実践者による2つの業界ワークショップ,実世界のソフトウェア問題へのパッチ適用に関する実証分析の3つの相補的な調査を行った。
セキュリティとパフォーマンスの効率が学術的な注目を集めているのに対して、保守性やその他の品質が検討されていることがわかりました。
- 参考スコア(独自算出の注目度): 3.0540716731676625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, LLMs have been widely integrated into software engineering workflows, supporting tasks like code generation. However, while these models often generate functionally correct outputs, we still lack a systematic understanding and evaluation of their non-functional qualities. Existing studies focus mainly on whether generated code passes the tests rather than whether it passes with quality. Guided by the ISO/IEC 25010 quality model, this study conducted three complementary investigations: a systematic review of 108 papers, two industry workshops with practitioners from multiple organizations, and an empirical analysis of patching real-world software issues using three LLMs. Motivated by insights from both the literature and practitioners, the empirical study examined the quality of generated patches on security, maintainability, and performance efficiency. Across the literature, we found that security and performance efficiency dominate academic attention, while maintainability and other qualities are understudied. In contrast, industry experts prioritize maintainability and readability, warning that generated code may accelerate the accumulation of technical debt. In our evaluation of functionally correct patches generated by three LLMs, improvements in one quality dimension often come at the cost of others. Runtime and memory results further show high variance across models and optimization strategies. Overall, our findings reveal a mismatch between academic focus, industry priorities, and model performance, highlighting the urgent need to integrate quality assurance mechanisms into LLM code generation pipelines to ensure that future generated code not only passes tests but truly passes with quality.
- Abstract(参考訳): 近年、LLMはソフトウェアエンジニアリングワークフローに広く統合され、コード生成のようなタスクをサポートしています。
しかしながら、これらのモデルはしばしば機能的に正しい出力を生成するが、機能的でない品質の体系的な理解と評価はいまだに欠けている。
既存の研究は、生成したコードが品質に合格するかどうかではなく、テストに合格するかどうかに重点を置いている。
ISO/IEC 25010の品質モデルによってガイドされた本研究では,108論文の体系的レビュー,複数組織の実践者による2つの産業ワークショップ,および3つのLCMを用いた実世界のソフトウェア問題へのパッチの実証分析という,3つの補完的な調査を行った。
文献と実践者の双方から洞察を得た実証的研究は、生成したパッチの品質、セキュリティ、保守性、パフォーマンス効率について調査した。
文献全体では、セキュリティとパフォーマンスの効率が学術的な注目を集めているのに対して、保守性やその他の品質は検討されている。
対照的に、業界の専門家は保守性と可読性を優先し、生成されたコードは技術的負債の蓄積を加速させる可能性があると警告する。
3つのLDMが生成する機能的正パッチの評価において,1つの品質次元の改善は,他のコストを伴って生じることが多い。
実行時とメモリの結果はさらに、モデル間のばらつきと最適化戦略を示している。
全体としては、学術的焦点、業界優先、モデルパフォーマンスのミスマッチが明らかとなり、将来生成されたコードがテストに合格するだけでなく、本当に品質をパスすることを保証するため、LLMコード生成パイプラインに品質保証メカニズムを統合する緊急の必要性が浮き彫りになりました。
関連論文リスト
- Assessing the Quality and Security of AI-Generated Code: A Quantitative Analysis [0.0]
本研究では,Claude Sonnet 4, Claude 3.7 Sonnet, GPT-4o, Llama 3.2 90B, OpenCoder 8Bの5大言語モデル(LLM)のコード品質とセキュリティを定量的に評価する。
LLMは機能的なコードを生成することができるが、バグやセキュリティ上の脆弱性、コードの臭いなど、さまざまなソフトウェア欠陥も導入している。
論文 参考訳(メタデータ) (2025-08-20T14:16:21Z) - COMPASS: A Multi-Dimensional Benchmark for Evaluating Code Generation in Large Language Models [0.0]
我々は3次元にわたるコード生成を評価する包括的な評価フレームワーク、すなわち正確性、効率、品質を紹介します。
Anthropic Claude Opus 4、Google Gemini 2.5 Pro、OpenAI O4-Mini-Highの3つの主要な推論モデルの評価結果から、高い正確性スコアを達成するモデルは必ずしも効率的なアルゴリズムや保守可能なコードを生成するとは限らないことが判明した。
論文 参考訳(メタデータ) (2025-08-19T11:55:07Z) - Is LLM-Generated Code More Maintainable \& Reliable than Human-Written Code? [4.893345190925178]
本研究では,LLM生成コードと人手書きコードの内部品質特性を比較した。
我々の分析によると、LLM生成コードにはバグが少なく、全体的な修正に労力がかかりません。
論文 参考訳(メタデータ) (2025-08-01T15:17:34Z) - Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。
本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文 参考訳(メタデータ) (2025-06-20T16:27:59Z) - AutoMind: Adaptive Knowledgeable Agent for Automated Data Science [70.33796196103499]
LLM(Large Language Model)エージェントは、現実世界のデータサイエンス問題に対処する大きな可能性を示している。
既存のフレームワークは、厳格で、事前定義された、柔軟性のないコーディング戦略に依存している。
適応的で知識のあるLLMエージェントフレームワークであるAutoMindを紹介する。
論文 参考訳(メタデータ) (2025-06-12T17:59:32Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - On the Adversarial Robustness of Instruction-Tuned Large Language Models for Code [4.286327408435937]
厳密なメトリクスと確立されたベンチマークを用いて、多様な入力課題が生成されたコードの機能と正確性に与える影響を評価する。
オープンソースモデルは入力摂動に対する感受性が増大し、機能的正しさは12%から34%にまで低下した。
対照的に、商用モデルは比較的高いレジリエンスを示し、性能劣化は3%から24%である。
論文 参考訳(メタデータ) (2024-11-29T07:00:47Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。