Fugu-MT 論文翻訳(概要): Static Analysis as a Feedback Loop: Enhancing LLM-Generated Code Beyond Correctness

論文の概要: Static Analysis as a Feedback Loop: Enhancing LLM-Generated Code Beyond Correctness

arxiv url: http://arxiv.org/abs/2508.14419v1
Date: Wed, 20 Aug 2025 04:31:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-21 16:52:41.342203
Title: Static Analysis as a Feedback Loop: Enhancing LLM-Generated Code Beyond Correctness
Title（参考訳）: フィードバックループとしての静的解析 - 正確性を超えたLLM生成コードの強化
Authors: Scott Blyth, Sherlock A. Licorish, Christoph Treude, Markus Wagner,
Abstract要約: 大規模言語モデル(LLM)は、HumanEvalやMBPPといったベンチマークで高いスコアを獲得することで、コード生成において印象的な能力を示している。本研究では,PythonSecurityEvalベンチマークを用いて,複数の次元にまたがる高品質なコードを生成するLLMの能力を体系的に評価する。本稿では、BanditとPylintを利用してコード品質の問題を特定し解決する、反復的な静的解析駆動プロンプトアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 10.153403762923976
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated impressive capabilities in code generation, achieving high scores on benchmarks such as HumanEval and MBPP. However, these benchmarks primarily assess functional correctness and neglect broader dimensions of code quality, including security, reliability, readability, and maintainability. In this work, we systematically evaluate the ability of LLMs to generate high-quality code across multiple dimensions using the PythonSecurityEval benchmark. We introduce an iterative static analysis-driven prompting algorithm that leverages Bandit and Pylint to identify and resolve code quality issues. Our experiments with GPT-4o show substantial improvements: security issues reduced from >40% to 13%, readability violations from >80% to 11%, and reliability warnings from >50% to 11% within ten iterations. These results demonstrate that LLMs, when guided by static analysis feedback, can significantly enhance code quality beyond functional correctness.
Abstract（参考訳）: 大規模言語モデル(LLM)は、HumanEvalやMBPPといったベンチマークで高いスコアを獲得することで、コード生成において印象的な能力を示している。しかしながら、これらのベンチマークは主に機能的正確性を評価し、セキュリティ、信頼性、可読性、保守性など、コード品質の幅広い側面を無視する。本研究では,PythonSecurityEvalベンチマークを用いて,複数の次元にまたがる高品質なコードを生成するLLMの能力を体系的に評価する。我々は、BanditとPylintを利用してコード品質の問題を特定し解決する反復静的解析駆動プロンプトアルゴリズムを導入する。 GPT-4oによる実験では,セキュリティ問題が40%から13%,可読性違反が80%から11%,信頼性警告が50%から11%に短縮された。これらの結果から,静的解析フィードバックによって導かれるLLMは,機能的正確性を超えたコード品質を著しく向上させることができることがわかった。

関連論文リスト

Assessing the Quality and Security of AI-Generated Code: A Quantitative Analysis [0.0]
本研究では,Claude Sonnet 4, Claude 3.7 Sonnet, GPT-4o, Llama 3.2 90B, OpenCoder 8Bの5大言語モデル(LLM)のコード品質とセキュリティを定量的に評価する。 LLMは機能的なコードを生成することができるが、バグやセキュリティ上の脆弱性、コードの臭いなど、さまざまなソフトウェア欠陥も導入している。
論文参考訳（メタデータ） (2025-08-20T14:16:21Z)
LLMxCPG: Context-Aware Vulnerability Detection Through Code Property Graph-Guided Large Language Models [2.891351178680099]
本稿では,コードプロパティグラフ(CPG)とLarge Language Models(LLM)を統合し,堅牢な脆弱性検出を行う新しいフレームワークを提案する。より簡潔で正確なコードスニペット表現を提供するアプローチの能力は、より大きなコードセグメントの分析を可能にします。実証的な評価は、検証済みデータセット間でLLMxCPGの有効性を示し、最先端のベースラインよりもF1スコアが15～40%改善されている。
論文参考訳（メタデータ） (2025-07-22T13:36:33Z)
D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning [49.16469288280772]
逆コンパイラは、バイナリから可読なソースコードを再構築する。近年の進歩にもかかわらず、そのアウトプットは構文上の誤りや意味的な誤りに悩まされ、読みにくいままである。大規模言語モデル (LLMs) の出現により、研究者は逆コンパイラ出力を洗練するためのLLMの可能性を探り始めた。 D-LIFTは、微調整強化学習を施した拡張逆コンパイラLLMパイプラインである。
論文参考訳（メタデータ） (2025-06-11T19:09:08Z)
On Iterative Evaluation and Enhancement of Code Quality Using GPT-4o [1.5960340244043023]
本稿では,Large Language Models (LLM) を利用したコード品質の反復評価と向上のための新しいフレームワークであるCodeQUESTを紹介する。フレームワークは2つの主要なコンポーネントに分割されている。10次元にわたるコード品質を評価し、定量スコアと定性的な要約の両方を提供する評価器。本研究は,CodeQUESTが既存のコード品質指標と整合して,コード品質を効果的かつ堅牢に評価できることを実証する。
論文参考訳（メタデータ） (2025-02-11T09:27:00Z)
Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [12.503002900186997]
大規模言語モデル(LLM)は自動テストケース生成で人気を集めている。 LLMは大量のオープンソースコードでトレーニングされているため、ベストプラクティスに従わないテストケースをしばしば生成します。静的解析に基づく品質指標に基づく高品質な単体テストを生成するために,RLSQM(Reinforcement Learning from Static Quality Metrics)を提案する。
論文参考訳（メタデータ） (2024-12-18T20:20:01Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文参考訳（メタデータ） (2023-11-30T17:41:30Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。