論文の概要: CFCEval: Evaluating Security Aspects in Code Generated by Large Language Models
- arxiv url: http://arxiv.org/abs/2512.06248v1
- Date: Sat, 06 Dec 2025 02:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.260897
- Title: CFCEval: Evaluating Security Aspects in Code Generated by Large Language Models
- Title(参考訳): CFCEval: 大規模言語モデルで生成されたコードのセキュリティ面の評価
- Authors: Cheng Cheng, Jinqiu Yang,
- Abstract要約: 大規模言語モデル(LLM)が生成するコードの品質とセキュリティを評価するためのフレームワークであるCFCEvalを紹介する。
CFCEvalは、MLVBenchという新しいベンチマークを作成してデータセットバイアスを緩和し、参照コードと生成されたコードとの関連性を評価するために設計された新しいメトリクスであるELRMを組み込んだ。
我々の実験では、CFCEvalは生成されたコードの品質とセキュリティの両方を効果的に捉えているだけでなく、そのELRMがCodeBLEUよりも人間の判断と密接に一致していることが示されている。
- 参考スコア(独自算出の注目度): 10.539924362853233
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Code-focused Large Language Models (LLMs), such as CodeX and Star-Coder, have demonstrated remarkable capabilities in enhancing developer productivity through context-aware code generation. However, evaluating the quality and security of LLM-generated code remains a significant challenge. Existing evaluation protocols for Code LLMs lack both methodological rigor and comprehensive scope. A key limitation is dataset bias, which arises from unintentional overlap between training and testing data. Furthermore, while CodeBLEU, a BLEU-based metric, is widely used to assess code similarity, it suffers from critical shortcomings, including imprecise tokenization, structural limitations, and low reference diversity. To address these challenges, we introduce CFCEval, a novel framework for evaluating the quality and security of code generated by LLMs. CFCEval mitigates dataset bias by creating a new benchmark, MLVBench, and incorporates ELRM, a new metric designed to assess the relevance between reference code and generated code. CFCEval evaluates generated code across four dimensions: programming quality, vulnerability-fixing capability, post-transformation fixing capability, and relevance. Our experiments show that CFCEval not only captures both quality and security aspects of generated code more effectively but also that its ELRM aligns more closely with human judgments than CodeBLEU, thus paving the way for future advancements in Code LLMs evaluation.
- Abstract(参考訳): CodeXやStar-Coderのようなコード中心のLarge Language Models (LLMs)は、コンテキスト認識コード生成による開発者の生産性向上に顕著な能力を示している。
しかし、LLM生成したコードの品質とセキュリティを評価することは依然として大きな課題である。
Code LLMの既存の評価プロトコルには、方法論的厳密さと包括的スコープが欠如している。
主な制限はデータセットバイアスであり、これはトレーニングとテストデータの意図しない重複から生じる。
さらに、BLEUベースのメトリクスであるCodeBLEUは、コード類似性を評価するために広く使用されているが、不正確なトークン化、構造的制限、参照の多様性の低さといった重大な欠点に悩まされている。
これらの課題に対処するため,LLMが生成するコードの品質とセキュリティを評価するための新しいフレームワークCFCEvalを紹介した。
CFCEvalは、MLVBenchという新しいベンチマークを作成してデータセットバイアスを緩和し、参照コードと生成されたコードとの関連性を評価するために設計された新しいメトリクスであるELRMを組み込んだ。
CFCEvalは、プログラミング品質、脆弱性修正機能、変換後の修正機能、関連性という、4つの側面で生成されたコードを評価する。
実験の結果, CFCEvalは生成したコードの品質とセキュリティの両面をより効果的に捉えるだけでなく, ELRMは CodeBLEU よりも人間の判断と密接に一致していることが判明した。
関連論文リスト
- MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - SafeGenBench: A Benchmark Framework for Security Vulnerability Detection in LLM-Generated Code [7.209766132478914]
LLM生成コードのセキュリティを評価するために特別に設計されたベンチマークであるSafeGenBenchを紹介する。
データセットには、幅広い一般的なソフトウェア開発シナリオと脆弱性タイプが含まれている。
SafeGenBench上での最先端LCMの実証評価を通じて,脆弱性のないコードを生成する能力に重大な欠陥があることを明らかにする。
論文 参考訳(メタデータ) (2025-06-06T02:48:02Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Can You Really Trust Code Copilots? Evaluating Large Language Models from a Code Security Perspective [19.345433857645016]
CoV-Evalは、コード補完、脆弱性修復、脆弱性検出、分類など、さまざまなタスクをカバーするマルチタスクベンチマークである。
VC-Judgeは、人間の専門家と密接に一致し、LLM生成プログラムの脆弱性をレビューできる、改善された判断モデルである。
論文 参考訳(メタデータ) (2025-05-15T16:53:41Z) - CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation [20.72188827088484]
大規模言語モデル(LLM)は、コード記述の生成や支援によって、開発者を大いに助けている。
機能的に正しいコードの脆弱性を検出することは、特にセキュリティ知識が限られている開発者にとっては、より難しい。
我々は、LLMによるセキュアコード生成の評価を強化するために、新しい結果駆動型評価フレームワークであるCWEvalを紹介する。
論文 参考訳(メタデータ) (2025-01-14T15:27:01Z) - Human-Like Code Quality Evaluation through LLM-based Recursive Semantic Comprehension [39.277408536940825]
コード品質評価には、特定の問題ステートメントに対する参照コードに基づいて生成されたコード品質を評価することが含まれる。
現在、コード品質の評価には、マッチベースの評価と実行ベースの評価の2つの主要な形態がある。
論文 参考訳(メタデータ) (2024-11-30T01:49:25Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - SALLM: Security Assessment of Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。
フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文 参考訳(メタデータ) (2023-11-01T22:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。