論文の概要: Assessing the Quality and Security of AI-Generated Code: A Quantitative Analysis
- arxiv url: http://arxiv.org/abs/2508.14727v1
- Date: Wed, 20 Aug 2025 14:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.476221
- Title: Assessing the Quality and Security of AI-Generated Code: A Quantitative Analysis
- Title(参考訳): AI生成コードの品質とセキュリティを評価する:定量的分析
- Authors: Abbas Sabra, Olivier Schmitt, Joseph Tyler,
- Abstract要約: 本研究では,Claude Sonnet 4, Claude 3.7 Sonnet, GPT-4o, Llama 3.2 90B, OpenCoder 8Bの5大言語モデル(LLM)のコード品質とセキュリティを定量的に評価する。
LLMは機能的なコードを生成することができるが、バグやセキュリティ上の脆弱性、コードの臭いなど、さまざまなソフトウェア欠陥も導入している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study presents a quantitative evaluation of the code quality and security of five prominent Large Language Models (LLMs): Claude Sonnet 4, Claude 3.7 Sonnet, GPT-4o, Llama 3.2 90B, and OpenCoder 8B. While prior research has assessed the functional performance of LLM-generated code, this research tested LLM output from 4,442 Java coding assignments through comprehensive static analysis using SonarQube. The findings suggest that although LLMs can generate functional code, they also introduce a range of software defects, including bugs, security vulnerabilities, and code smells. These defects do not appear to be isolated; rather, they may represent shared weaknesses stemming from systemic limitations within current LLM code generation methods. In particular, critically severe issues, such as hard-coded passwords and path traversal vulnerabilities, were observed across multiple models. These results indicate that LLM-generated code requires verification in order to be considered production-ready. This study found no direct correlation between a model's functional performance (measured by Pass@1 rate of unit tests) and the overall quality and security of its generated code, measured by the number of SonarQube issues in benchmark solutions that passed the functional tests. This suggests that functional benchmark performance score is not a good indicator of overall code quality and security. The goal of this study is not to rank LLM performance but to highlight that all evaluated models appear to share certain weaknesses. Consequently, these findings support the view that static analysis can be a valuable instrument for detecting latent defects and an important safeguard for organizations that deploy AI in software development.
- Abstract(参考訳): 本研究では,Claude Sonnet 4, Claude 3.7 Sonnet, GPT-4o, Llama 3.2 90B, OpenCoder 8Bの5大言語モデル(LLM)のコード品質とセキュリティを定量的に評価する。
従来,LLM生成コードの機能性能は評価されてきたが,本研究ではSonarQubeを用いた静的解析により,4,442個のJavaコーディング割り当てからLLM出力を検証した。
LLMは機能的なコードを生成することができるが、バグやセキュリティ上の脆弱性、コードの臭いなど、さまざまなソフトウェア欠陥も導入している。
これらの欠陥は分離されていないように見えるが、むしろ現在のLLMコード生成メソッドの体系的な制限に起因する、共有の弱点を表しているかもしれない。
特に、ハードコードされたパスワードやパストラバースの脆弱性などの深刻な問題が複数のモデルで観測された。
これらの結果から,LCM生成コードは実運用対応とみなすためには検証が必要であることが示唆された。
本研究では,機能テストに合格したベンチマークソリューションにおけるSonarQube問題の数から,モデルの機能性能(Pass@1レートで測定)と生成コードの全体的な品質とセキュリティとの間に直接的な相関は見つからなかった。
これは、機能ベンチマークのパフォーマンススコアが全体的なコード品質とセキュリティの指標にはならないことを示唆している。
本研究の目的は、LLM性能のランク付けではなく、評価されたモデルすべてが特定の弱点を共有しているように見える点を強調することである。
その結果、静的分析は潜伏する欠陥を検出するための貴重な手段であり、ソフトウェア開発にAIをデプロイする組織にとって重要な安全保護である、という見解を支持している。
関連論文リスト
- CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。
LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文 参考訳(メタデータ) (2025-07-14T17:56:29Z) - VERINA: Benchmarking Verifiable Code Generation [47.9771074559674]
大規模言語モデル(LLM)は、ソフトウェア開発にますます統合されている。
検証可能なコード生成は、この制限に対処するための有望なパスを提供する。
現在のベンチマークでは、エンドツーエンドの検証可能なコード生成がサポートされていないことが多い。
論文 参考訳(メタデータ) (2025-05-29T06:12:52Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - An Insight into Security Code Review with LLMs: Capabilities, Obstacles, and Influential Factors [9.309745288471374]
セキュリティコードレビューは時間と労力を要するプロセスです。
既存のセキュリティ分析ツールは、一般化の貧弱、偽陽性率の高い、粗い検出粒度に悩まされている。
大きな言語モデル(LLM)は、これらの課題に対処するための有望な候補と考えられている。
論文 参考訳(メタデータ) (2024-01-29T17:13:44Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。