論文の概要: Large Language Models for Multilingual Vulnerability Detection: How Far Are We?
- arxiv url: http://arxiv.org/abs/2506.07503v1
- Date: Mon, 09 Jun 2025 07:27:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.850219
- Title: Large Language Models for Multilingual Vulnerability Detection: How Far Are We?
- Title(参考訳): 多言語脆弱性検出のための大規模言語モデル:我々はどこまで遠いのか?
- Authors: Honglin Shu, Michael Fu, Junji Yu, Dong Wang, Chakkrit Tantithamthavorn, Junjie Chen, Yasutaka Kamei,
- Abstract要約: 多言語脆弱性検出のための事前学習言語モデル(PLM)と大規模言語モデル(LLM)の有効性を評価する。
7つの言語にまたがる3万以上の現実世界の脆弱性修正パッチを使用して、機能レベルとラインレベルの両方でモデルパフォーマンスを評価します。
GPT-4oはインストラクションチューニングと数発のプロンプトによって強化され、他の評価モデルよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 13.269680075539135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Various deep learning-based approaches utilizing pre-trained language models (PLMs) have been proposed for automated vulnerability detection. With recent advancements in large language models (LLMs), several studies have begun exploring their application to vulnerability detection tasks. However, existing studies primarily focus on specific programming languages (e.g., C/C++) and function-level detection, leaving the strengths and weaknesses of PLMs and LLMs in multilingual and multi-granularity scenarios largely unexplored. To bridge this gap, we conduct a comprehensive fine-grained empirical study evaluating the effectiveness of state-of-the-art PLMs and LLMs for multilingual vulnerability detection. Using over 30,000 real-world vulnerability-fixing patches across seven programming languages, we systematically assess model performance at both the function-level and line-level. Our key findings indicate that GPT-4o, enhanced through instruction tuning and few-shot prompting, significantly outperforms all other evaluated models, including CodeT5P. Furthermore, the LLM-based approach demonstrates superior capability in detecting unique multilingual vulnerabilities, particularly excelling in identifying the most dangerous and high-severity vulnerabilities. These results underscore the promising potential of adopting LLMs for multilingual vulnerability detection at function-level and line-level, revealing their complementary strengths and substantial improvements over PLM approaches. This first empirical evaluation of PLMs and LLMs for multilingual vulnerability detection highlights LLMs' value in addressing real-world software security challenges.
- Abstract(参考訳): 事前学習言語モデル(PLM)を利用したディープラーニングに基づく様々なアプローチが、自動脆弱性検出のために提案されている。
近年,大規模言語モデル (LLM) の進歩に伴い,脆弱性検出タスクへの応用を探る研究がいくつか行われている。
しかし、既存の研究は主に特定のプログラミング言語(例えばC/C++)と関数レベルの検出に重点を置いており、多言語および多言語シナリオにおけるPLMとLMの長所と短所は明らかにされていない。
このギャップを埋めるため、我々は多言語脆弱性検出のための最先端のPLMとLMの有効性を評価するための総合的な実験研究を行った。
7つの言語にまたがる3万以上の現実世界の脆弱性修正パッチを用いて、機能レベルとラインレベルの両方でモデルパフォーマンスを体系的に評価する。
GPT-4oはインストラクションチューニングと数発のプロンプトによって強化され,CodeT5Pを含む他の評価モデルよりも優れていた。
さらに、LSMベースのアプローチは、特に最も危険で重大な脆弱性を特定するのに優れた、ユニークな多言語脆弱性の検出能力を示している。
これらの結果は,多言語的脆弱性検出にLLMを採用するという有望な可能性を関数レベルおよび行レベルで示し,それらの相補的な強みとPLMアプローチに対する実質的な改善を明らかにした。
マルチリンガル脆弱性検出のためのPLMとLMの最初の経験的評価は、現実のソフトウェアセキュリティ問題に対処する上でのLSMの価値を強調している。
関連論文リスト
- Leveraging Large Language Models for Command Injection Vulnerability Analysis in Python: An Empirical Study on Popular Open-Source Projects [5.997074223480274]
コマンドインジェクションの脆弱性は、Pythonのような動的言語において重大なセキュリティ上の脅威である。
テストなどのコード関連タスクにおけるLLM(Large Language Models)の有効性が証明されたことから、研究者たちは脆弱性分析の可能性を探った。
本研究は,GPT-4のような大規模言語モデル(LLM)の潜在的な可能性を,脆弱性検出のための自動テストの代替手法として評価する。
論文 参考訳(メタデータ) (2025-05-21T04:14:35Z) - A Preliminary Study of Large Language Models for Multilingual Vulnerability Detection [13.269680075539135]
言語モデル(LLM)は言語に依存しない機能と意味理解の強化を提供する。
大規模言語モデル(LLM)の最近の進歩は、言語に依存しない機能と意味理解の強化を提供する。
以上の結果から, PLM CodeT5Pは多言語脆弱性検出において最高の性能を発揮することが明らかとなった。
論文 参考訳(メタデータ) (2025-05-12T09:19:31Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - How Far Have We Gone in Vulnerability Detection Using Large Language
Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。
このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。
いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-21T08:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。