論文の概要: Large Language Models Cannot Reliably Detect Vulnerabilities in JavaScript: The First Systematic Benchmark and Evaluation
- arxiv url: http://arxiv.org/abs/2512.01255v1
- Date: Mon, 01 Dec 2025 04:00:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.678725
- Title: Large Language Models Cannot Reliably Detect Vulnerabilities in JavaScript: The First Systematic Benchmark and Evaluation
- Title(参考訳): JavaScriptの脆弱性を確実に検出できない大規模言語モデル - 最初のシステムベンチマークと評価
- Authors: Qingyuan Fei, Xin Liu, Song Li, Shujiang Wu, Jianwei Hou, Ping Chen, Zifeng Kang,
- Abstract要約: 我々は、JavaScriptの脆弱性検出のためのベンチマークを構築するための3つの原則を紹介した。
最初の自動ベンチマーク生成フレームワークFOGEJSを提案する。
我々は,JavaScriptの脆弱性検出のための大規模言語モデルの最初の体系的評価を行う。
- 参考スコア(独自算出の注目度): 8.85349227459794
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Researchers have proposed numerous methods to detect vulnerabilities in JavaScript, especially those assisted by Large Language Models (LLMs). However, the actual capability of LLMs in JavaScript vulnerability detection remains questionable, necessitating systematic evaluation and comprehensive benchmarks. Unfortunately, existing benchmarks suffer from three critical limitations: (1) incomplete coverage, such as covering a limited subset of CWE types; (2) underestimation of LLM capabilities caused by unreasonable ground truth labeling; and (3) overestimation due to unrealistic cases such as using isolated vulnerable files rather than complete projects. In this paper, we introduce, for the first time, three principles for constructing a benchmark for JavaScript vulnerability detection that directly address these limitations: (1) comprehensiveness, (2) no underestimation, and (3) no overestimation. Guided by these principles, we propose FORGEJS, the first automatic benchmark generation framework for evaluating LLMs' capability in JavaScript vulnerability detection. Then, we use FORGEJS to construct ARENAJS-the first systematic benchmark for LLM-based JavaScript vulnerability detection-and further propose JUDGEJS, an automatic evaluation framework. We conduct the first systematic evaluation of LLMs for JavaScript vulnerability detection, leveraging JUDGEJS to assess seven popular commercial LLMs on ARENAJS. The results show that LLMs not only exhibit limited reasoning capabilities, but also suffer from severe robustness defects, indicating that reliable JavaScript vulnerability detection with LLMs remains an open challenge.
- Abstract(参考訳): 研究者はJavaScriptの脆弱性を検出するために、特にLarge Language Models(LLMs)によって支援された多くの方法を提案している。
しかし、JavaScriptの脆弱性検出におけるLLMの実際の能力は疑問の余地があり、体系的な評価と包括的なベンチマークが必要である。
残念ながら、既存のベンチマークは、(1)CWEタイプの限定的なサブセットをカバーするなど、不完全なカバレッジ、(2)理にかなわない真実のラベル付けによるLLM機能の過小評価、(3)完全なプロジェクトではなく、孤立した脆弱なファイルを使用するといった非現実的なケースによる過大評価の3つの限界に悩まされている。
本稿では,(1)包括性,(2)過小評価,(3)過大評価の3つの原則を紹介する。
これらの原則によって導かれたFOGEJSは,JavaScriptの脆弱性検出におけるLLMの能力を評価するための,最初の自動ベンチマーク生成フレームワークである。
次に、ForGEJSを用いて、ALNAJS - LLMベースのJavaScript脆弱性検出のための最初のシステマティックベンチマークを構築し、さらに自動評価フレームワークであるJUDGEJSを提案する。
JUDGEJSを利用して、ARENAJS上で人気の高い商業LLMを7つ評価する。
その結果、LLMは限定的な推論能力を示すだけでなく、深刻な堅牢性欠陥に悩まされていることが示され、LLMによる信頼性の高いJavaScript脆弱性検出は依然としてオープンな課題であることが示された。
関連論文リスト
- JsDeObsBench: Measuring and Benchmarking LLMs for JavaScript Deobfuscation [34.88009582470047]
大規模言語モデル(LLM)は、最近、難読化プロセスを自動化することを約束している。
JsDeObsBench は JS の難読化の文脈において LLM の有効性を厳格に評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2025-06-25T06:50:13Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - Benchmarking LLMs and LLM-based Agents in Practical Vulnerability Detection for Code Repositories [8.583591493627276]
JitVulは、各関数をその脆弱性導入とコミットの修正にリンクする脆弱性検出ベンチマークである。
思考・行動・観察と相互言語的文脈を活用するReAct Agentsは,良性のあるコードと区別する上で,LLMよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-03-05T15:22:24Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。