Fugu-MT 論文翻訳(概要): TOSSS: a CVE-based Software Security Benchmark for Large Language Models

論文の概要: TOSSS: a CVE-based Software Security Benchmark for Large Language Models

arxiv url: http://arxiv.org/abs/2603.10969v1
Date: Wed, 11 Mar 2026 16:54:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-12 16:22:33.063542
Title: TOSSS: a CVE-based Software Security Benchmark for Large Language Models
Title（参考訳）: TOSSS: 大規模言語モデルのためのCVEベースのソフトウェアセキュリティベンチマーク
Authors: Marc Damie, Murat Bilgehan Ertan, Domenico Essoussi, Angela Makhanu, Gaëtan Peter, Roos Wensveen,
Abstract要約: 大規模言語モデル (LLM) は現在、多くの産業で使われている。 LLMはソフトウェアセキュリティに優れているか? 我々は、セキュアなコードスニペットと脆弱なコードスニペットを選択できるLLMの能力を測定するベンチマークであるTOSSSを紹介する。
参考スコア（独自算出の注目度）: 0.28734453162509355
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With their increasing capabilities, Large Language Models (LLMs) are now used across many industries. They have become useful tools for software engineers and support a wide range of development tasks. As LLMs are increasingly used in software development workflows, a critical question arises: are LLMs good at software security? At the same time, organizations worldwide invest heavily in cybersecurity to reduce exposure to disruptive attacks. The integration of LLMs into software engineering workflows may introduce new vulnerabilities and weaken existing security efforts. We introduce TOSSS (Two-Option Secure Snippet Selection), a benchmark that measures the ability of LLMs to choose between secure and vulnerable code snippets. Existing security benchmarks for LLMs cover only a limited range of vulnerabilities. In contrast, TOSSS relies on the CVE database and provides an extensible framework that can integrate newly disclosed vulnerabilities over time. Our benchmark gives each model a security score between 0 and 1 based on its behavior; a score of 1 indicates that the model always selects the secure snippet, while a score of 0 indicates that it always selects the vulnerable one. We evaluate 14 widely used open-source and closed-source models on C/C++ and Java code and observe scores ranging from 0.48 to 0.89. LLM providers already publish many benchmark scores for their models, and TOSSS could become a complementary security-focused score to include in these reports.
Abstract（参考訳）: 能力の増大に伴い、Large Language Models (LLM) は今や多くの産業で使われている。それらはソフトウェアエンジニアにとって有用なツールとなり、幅広い開発タスクをサポートしています。 LLMはソフトウェア開発のワークフローでますます使われているので、重要な疑問が浮かび上がってくる。同時に、組織は破壊的な攻撃への露出を減らすために、世界中のサイバーセキュリティに多大な投資をしている。 LLMをソフトウェアエンジニアリングワークフローに統合することは、新たな脆弱性を導入し、既存のセキュリティ努力を弱める可能性がある。 TOSSS(Two-Option Secure Snippet Selection)は,LLMがセキュアかつ脆弱なコードスニペットを選択する能力を測定するベンチマークである。 LLMの既存のセキュリティベンチマークは、限られた脆弱性しかカバーしていない。対照的に、TOSSSはCVEデータベースに依存し、時間をかけて新たに公開された脆弱性を統合する拡張可能なフレームワークを提供する。 1のスコアは、モデルが常にセキュアスニペットを選択することを示し、0のスコアは、常に脆弱なスニペットを選択することを示しています。 C/C++およびJavaコード上で広く使用されている14のオープンソースおよびクローズドソースモデルを評価し,0.48から0.89までのスコアを観測した。 LLMプロバイダはすでにモデルのベンチマークスコアを多数公開しており、TOSSSはこれらのレポートに含めるための補完的なセキュリティ重視のスコアになる可能性がある。

関連論文リスト

RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文参考訳（メタデータ） (2026-01-30T08:29:01Z)
A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文参考訳（メタデータ） (2025-08-25T15:11:11Z)
Are AI-Generated Fixes Secure? Analyzing LLM and Agent Patches on SWE-bench [9.229310642804036]
我々は,SWE-benchデータセットから2万以上の問題を用いて,LLM生成パッチの大規模セキュリティ解析を行った。スタンドアロンのLCM(Llama 3.3)によるパッチを評価し,開発者によるパッチと比較した。また、データのサブセットに基づいて、トップパフォーマンスのエージェントフレームワーク(OpenHands、AutoCodeRover、HoneyComb)3つによって生成されたパッチのセキュリティを評価します。
論文参考訳（メタデータ） (2025-06-30T21:10:19Z)
SafeGenBench: A Benchmark Framework for Security Vulnerability Detection in LLM-Generated Code [7.209766132478914]
LLM生成コードのセキュリティを評価するために特別に設計されたベンチマークであるSafeGenBenchを紹介する。データセットには、幅広い一般的なソフトウェア開発シナリオと脆弱性タイプが含まれている。 SafeGenBench上での最先端LCMの実証評価を通じて,脆弱性のないコードを生成する能力に重大な欠陥があることを明らかにする。
論文参考訳（メタデータ） (2025-06-06T02:48:02Z)
Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文参考訳（メタデータ） (2024-11-21T08:20:31Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。