Fugu-MT 論文翻訳(概要): RealVuln: Benchmarking Rule-Based, General-Purpose LLM, and Security-Specialized Scanners on Real-World Code

論文の概要: RealVuln: Benchmarking Rule-Based, General-Purpose LLM, and Security-Specialized Scanners on Real-World Code

arxiv url: http://arxiv.org/abs/2604.13764v1
Date: Wed, 15 Apr 2026 11:49:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-16 20:38:32.516876
Title: RealVuln: Benchmarking Rule-Based, General-Purpose LLM, and Security-Specialized Scanners on Real-World Code
Title（参考訳）: RealVuln: 実世界のコード上でのベンチマークルールベース、汎用LLM、セキュリティ特化スキャナ
Authors: John Pellew, Faizan Raza,
Abstract要約: RealVulnは、26の脆弱なPythonリポジトリ上で、ルールベースのSAST、汎用LLM、セキュリティ特化スキャナを比較した最初のオープンソースベンチマークである。明確な3段階のランキングは、すべての指標の下に現れます。すべてのコード、地上データ、スキャナ出力、スコアリングスクリプトは、オープンソースライセンスでリリースされている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: How do security scanners perform on real-world code? We present RealVuln, the first open-source benchmark comparing Rule-Based SAST, General-Purpose LLMs, and Security-Specialized scanners on 26 intentionally vulnerable Python repositories (educational and Capture-The-Flag applications) with 796 hand-labeled entries (676 vulnerabilities, 120 false-positive traps). We test 15 scanners (3 Rule-Based SAST, 10 General-Purpose LLM, 2 Security-Specialized) and rank them by F3 score (beta=3, weighting recall 9x over precision). A clear three-tier ranking emerges under all metrics. Under F3, the Security-Specialized scanner Kolega.Dev (73.0) leads, followed by the best General-Purpose LLM, Claude Sonnet 4.6 (51.7), which in turn scores nearly 3x higher than the best Rule-Based tool, Semgrep (17.7). Under F1, Sonnet 4.6 leads (60.9) with Kolega.Dev at 52.4. Rankings within tiers shift with beta, but the three-tier hierarchy holds across all weightings. All code, ground-truth data, scanner outputs, and scoring scripts are released under an open-source license. An interactive dashboard is at https://realvuln.kolega.dev/. RealVuln is a living benchmark: versioned, community-driven, with a roadmap toward multi-language coverage.
Abstract（参考訳）: セキュリティスキャナーは現実世界のコードでどのように機能するのか? RealVulnは、ルールベースのSAST、汎用LLM、セキュリティに特化されたスキャナを、意図的に脆弱な26のPythonレポジトリ(教育用とキャプチャー・ザ・フラッグのアプリケーション)に、796のハンドラベルのエントリ(676の脆弱性、120の偽陽性のトラップ)で比較した最初のオープンソースベンチマークである。我々は15個のスキャナー(ルールベースSAST,10個の汎用LSM,2個のセキュリティ仕様)をテストし、それらをF3スコア(beta=3,重み付けリコール精度9倍)でランク付けする。明確な3段階のランキングは、すべての指標の下に現れます。 F3では、Security-Specialized scanner Kolega.Dev (73.0) がリードし、続いてジェネラルPurpose LLM の Claude Sonnet 4.6 (51.7) が最上位のルールベースツールであるSemgrep (17.7) よりも3倍高いスコアを獲得した。 F1ではSonnet 4.6が60.9で、Kolega.Devは52.4でリードした。階層内のランキングはベータで変わるが、3階層の階層はすべての重みで保持される。すべてのコード、地上データ、スキャナ出力、スコアリングスクリプトは、オープンソースライセンスでリリースされている。インタラクティブダッシュボードはhttps://realvuln.kolega.dev/にある。 RealVulnは、マルチ言語カバレッジに向けたロードマップを備えた、バージョン管理されたコミュニティ駆動の、生きたベンチマークである。

関連論文リスト

SkillSieve: A Hierarchical Triage Framework for Detecting Malicious AI Agent Skills [0.0]
SkillSieveは3層検出フレームワークで、必要に応じてより深く分析する。 400スキルのラベル付きベンチマークでは、SkillSieveは0.800 F1を達成し、ClawVetの0.421を上回った。
論文参考訳（メタデータ） (2026-04-08T00:58:48Z)
Credential Leakage in LLM Agent Skills: A Large-Scale Empirical Study [51.717224133855886]
サードパーティのスキルはLLMエージェントを強力な能力で拡張するが、特権のある環境では機密情報を扱うことが多い。静的解析,サンドボックステスト,手動検査を用いて17,022のスキル(SkillsMPで170,226からサンプリング)を分析した。我々は,1,708の課題で520の脆弱なスキルを識別し,10の漏洩パターン(事故4件,反対6件)の分類を導出する。
論文参考訳（メタデータ） (2026-04-03T14:50:16Z)
VibeGuard: A Security Gate Framework for AI-Generated Code [0.11080037957254413]
AnthropicのClaude Code CLIは、npmパッケージに59.8MBのソースマップファイルを出荷し、512,000行のプロプライエタリなTypeScriptを公開している。われわれは、5つの盲点を狙うプレパブリッシュのセキュリティゲートであるVibeGuardを提示する。これらの結果が、AIコード生成に依存するチームにとって、詳細なワークフローにどのように影響するかについて議論する。
論文参考訳（メタデータ） (2026-04-01T15:57:01Z)
RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文参考訳（メタデータ） (2026-01-30T08:29:01Z)
Secure Code Generation at Scale with Reflexion [0.0]
Pythonは最高安全率、CとC#は最低である。反射により全てのモデルのセキュリティが向上し、平均精度はt0で70.74%からt3で79.43%に向上した。
論文参考訳（メタデータ） (2025-11-05T22:46:24Z)
Large Language Models Versus Static Code Analysis Tools: A Systematic Benchmark for Vulnerability Detection [0.0]
業界標準の3つの静的コード分析ツール(Sonar、CodeQL、Snyk Code)と、GitHub Modelsプラットフォーム(GPT-4.1、Mistral Large、DeepSeek V3)にホストされた最先端の3つの大規模言語モデルを評価した。 63の脆弱性を埋め込んだ10の現実世界のC#プロジェクトのキュレートされたスイートを使用して、古典的な精度(精度、リコール、Fスコア)、分析のレイテンシ、粒度、真の肯定性を検証するために必要な開発者の労力を測定します。開発初期段階の言語モデルを採用して、広義のコンテキスト認識検出と検出を行う、ハイブリッドパイプラインを推奨します。
論文参考訳（メタデータ） (2025-08-06T13:48:38Z)
BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems [62.17474934536671]
我々は、現実世界のシステムを進化させる際に、攻撃的かつ防御的なサイバー能力を捕獲する最初の枠組みを紹介する。脆弱性ライフサイクルを捉えるために、3つのタスクタイプを定義します。検出(新たな脆弱性の検出)、エクスプロイト(特定の脆弱性の探索)、パッチ(特定の脆弱性のパッチ)。 Claude Code,OpenAI Codex CLI with o3-high and o4-mini,カスタムエージェント with o3-high, GPT-4.1, Gemini 2.5 Pro Preview, Claude 3.7 Sonnet Thinking, DeepSeek-R1。
論文参考訳（メタデータ） (2025-05-21T07:44:52Z)
SOSecure: Safer Code Generation with RAG and StackOverflow Discussions [4.2630881518611226]
大規模言語モデル(LLM)は、コードの自動生成に広く使われている。頻繁に更新される事前トレーニングデータへの依存は、新たに発見された脆弱性やセキュリティ標準の進化に気付かないままである。本稿では,LLM生成コードのセキュリティ向上のために,SO議論で見出されたセキュリティの総合的専門知識を活用する検索型拡張生成システムであるSOSecureを紹介する。
論文参考訳（メタデータ） (2025-03-17T19:03:36Z)
DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories [83.5195424237358]
既存のベンチマークは、現実世界のコードリポジトリと不整合である。我々はDevEvalという新しいベンチマークを提案し、これは3つの進歩がある。 DevEvalは117のリポジトリから1,874のサンプルを持ち、10の人気のあるドメインをカバーする。
論文参考訳（メタデータ） (2024-05-30T09:03:42Z)
DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation [70.96868419971756]
DS-1000は7つのPythonライブラリにまたがる1000のデータサイエンス問題のあるコード生成ベンチマークである。まず、StackOverflowからそれらを収集して以来の、多様で現実的で実践的なユースケースを反映しています。第2に、私たちの自動評価は非常に具体的(信頼性)です -- 評価が受け入れているすべてのCodex予測ソリューションに対して、そのわずか1.8%が間違っています。
論文参考訳（メタデータ） (2022-11-18T17:20:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。