Fugu-MT 論文翻訳(概要): CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation

論文の概要: CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation

arxiv url: http://arxiv.org/abs/2501.08200v1
Date: Tue, 14 Jan 2025 15:27:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-15 17:02:04.53313
Title: CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation
Title（参考訳）: CWEval: LLMコード生成の機能とセキュリティに関するアウトカム駆動評価
Authors: Jinjun Peng, Leyi Cui, Kele Huang, Junfeng Yang, Baishakhi Ray,
Abstract要約: 大規模言語モデル(LLM)は、コード記述の生成や支援によって、開発者を大いに助けている。機能的に正しいコードの脆弱性を検出することは、特にセキュリティ知識が限られている開発者にとっては、より難しい。我々は、LLMによるセキュアコード生成の評価を強化するために、新しい結果駆動型評価フレームワークであるCWEvalを紹介する。
参考スコア（独自算出の注目度）: 20.72188827088484
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have significantly aided developers by generating or assisting in code writing, enhancing productivity across various tasks. While identifying incorrect code is often straightforward, detecting vulnerabilities in functionally correct code is more challenging, especially for developers with limited security knowledge, which poses considerable security risks of using LLM-generated code and underscores the need for robust evaluation benchmarks that assess both functional correctness and security. Current benchmarks like CyberSecEval and SecurityEval attempt to solve it but are hindered by unclear and impractical specifications, failing to assess both functionality and security accurately. To tackle these deficiencies, we introduce CWEval, a novel outcome-driven evaluation framework designed to enhance the evaluation of secure code generation by LLMs. This framework not only assesses code functionality but also its security simultaneously with high-quality task specifications and outcome-driven test oracles which provides high accuracy. Coupled with CWEval-bench, a multilingual, security-critical coding benchmark, CWEval provides a rigorous empirical security evaluation on LLM-generated code, overcoming previous benchmarks' shortcomings. Through our evaluations, CWEval reveals a notable portion of functional but insecure code produced by LLMs, and shows a serious inaccuracy of previous evaluations, ultimately contributing significantly to the field of secure code generation. We open-source our artifact at: https://github.com/Co1lin/CWEval .
Abstract（参考訳）: 大規模言語モデル(LLM)は、コード記述の生成や支援、さまざまなタスクにおける生産性の向上によって、開発者を大いに助けている。誤ったコードを特定することは、しばしば簡単であるが、機能的に正しいコードの脆弱性を検出することは、特にセキュリティ知識が限られている開発者にとっては、より困難である。 CyberSecEvalやSecurityEvalのような現在のベンチマークは、それを解決しようとするが、不明瞭で非現実的な仕様によって妨げられ、機能とセキュリティの両方を正確に評価することができない。これらの欠陥に対処するために、LLMによるセキュアコード生成の評価を強化するために設計された新しい結果駆動評価フレームワークであるCWEvalを紹介する。このフレームワークは、コード機能を評価するだけでなく、高品質なタスク仕様と高い精度を提供する結果駆動テストのオーラクルを同時に評価します。マルチリンガルでセキュリティクリティカルなコーディングベンチマークであるCWEval-benchと組み合わせて、CWEvalは、LCM生成コードの厳密な経験的なセキュリティ評価を提供し、以前のベンチマークの欠点を克服する。我々の評価を通じて、CWEvalはLLMが生成した機能的だが安全でないコードの顕著な部分を明らかにし、過去の評価の重大な不正確さを示し、最終的にはセキュアなコード生成の分野に大きく貢献する。私たちはアーティファクトをhttps://github.com/Co1lin/CWEval でオープンソース化しました。

関連論文リスト

Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model [60.60587869092729]
大規模言語モデル(LLM)は、ソフトウェア開発でますます使われているが、安全でないコードを生成する傾向は、現実世界のデプロイメントにとって大きな障壁である。機能保存型セキュアコード生成のためのオンライン強化学習フレームワークSecCoderXを提案する。
論文参考訳（メタデータ） (2026-02-07T07:42:07Z)
RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文参考訳（メタデータ） (2026-01-30T08:29:01Z)
CFCEval: Evaluating Security Aspects in Code Generated by Large Language Models [10.539924362853233]
大規模言語モデル(LLM)が生成するコードの品質とセキュリティを評価するためのフレームワークであるCFCEvalを紹介する。 CFCEvalは、MLVBenchという新しいベンチマークを作成してデータセットバイアスを緩和し、参照コードと生成されたコードとの関連性を評価するために設計された新しいメトリクスであるELRMを組み込んだ。我々の実験では、CFCEvalは生成されたコードの品質とセキュリティの両方を効果的に捉えているだけでなく、そのELRMがCodeBLEUよりも人間の判断と密接に一致していることが示されている。
論文参考訳（メタデータ） (2025-12-06T02:20:31Z)
SecureReviewer: Enhancing Large Language Models for Secure Code Review through Secure-aware Fine-tuning [8.229920162000369]
コードレビュー中にセキュリティ関連の問題を特定し解決するためにSecureReviewerを提案する。まず、セキュアなコードレビュー機能をトレーニングし評価するためのデータセットを構築します。我々は、ドメイン固有のセキュリティ知識に生成されたコメントを基盤とするRAG技術を統合する。
論文参考訳（メタデータ） (2025-10-30T13:06:11Z)
A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文参考訳（メタデータ） (2025-08-25T15:11:11Z)
SafeGenBench: A Benchmark Framework for Security Vulnerability Detection in LLM-Generated Code [7.209766132478914]
LLM生成コードのセキュリティを評価するために特別に設計されたベンチマークであるSafeGenBenchを紹介する。データセットには、幅広い一般的なソフトウェア開発シナリオと脆弱性タイプが含まれている。 SafeGenBench上での最先端LCMの実証評価を通じて,脆弱性のないコードを生成する能力に重大な欠陥があることを明らかにする。
論文参考訳（メタデータ） (2025-06-06T02:48:02Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Can You Really Trust Code Copilots? Evaluating Large Language Models from a Code Security Perspective [19.345433857645016]
CoV-Evalは、コード補完、脆弱性修復、脆弱性検出、分類など、さまざまなタスクをカバーするマルチタスクベンチマークである。 VC-Judgeは、人間の専門家と密接に一致し、LLM生成プログラムの脆弱性をレビューできる、改善された判断モデルである。
論文参考訳（メタデータ） (2025-05-15T16:53:41Z)
The Hidden Risks of LLM-Generated Web Application Code: A Security-Centric Evaluation of Code Generation Capabilities in Large Language Models [0.769672852567215]
本稿では,複数のモデルにまたがるLLM生成コードのセキュリティコンプライアンスを評価するために,予め定義されたセキュリティパラメータを用いる。この分析は、認証機構、セッション管理、入力バリデーション、HTTPセキュリティヘッダに重大な脆弱性を明らかにしている。我々の発見は、LLM生成コードのセキュアなソフトウェアデプロイメントやレビューのために、人間の専門知識が不可欠であることを示している。
論文参考訳（メタデータ） (2025-04-29T10:23:11Z)
A Comprehensive Study of LLM Secure Code Generation [19.82291066720634]
これまでの研究は主に、生成されたコードの脆弱性を検出するために、単一の静的アナライザであるCodeQLに依存していた。セキュリティ検査と機能検証の両方を同一生成コードに適用し、これら2つの側面をまとめて評価する。我々の研究は、既存の技術が多くの場合、生成したコードの機能を損なうことにより、セキュリティが向上することを示した。
論文参考訳（メタデータ） (2025-03-18T20:12:50Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文参考訳（メタデータ） (2024-10-14T21:17:22Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval [20.959848710829878]
大規模言語モデル(LLM)は、コード生成とコード修復に大きな進歩をもたらした。しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を必然的に伝播するリスクを増大させる。我々は,コードLLMのセキュリティ面を正確に評価し,拡張することを目的とした総合的研究を提案する。
論文参考訳（メタデータ） (2024-07-02T16:13:21Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Software Vulnerability and Functionality Assessment using LLMs [0.8057006406834466]
我々は,Large Language Models (LLMs) がコードレビューに役立つかどうかを検討する。我々の調査は、良質なレビューに欠かせない2つの課題に焦点を当てている。
論文参考訳（メタデータ） (2024-03-13T11:29:13Z)
CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。 CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文参考訳（メタデータ） (2024-03-12T17:55:38Z)
SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文参考訳（メタデータ） (2024-02-07T17:33:54Z)
SALLM: Security Assessment of Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文参考訳（メタデータ） (2023-11-01T22:46:31Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。