論文の概要: A Preliminary Study of Large Language Models for Multilingual Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2505.07376v1
- Date: Mon, 12 May 2025 09:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.33199
- Title: A Preliminary Study of Large Language Models for Multilingual Vulnerability Detection
- Title(参考訳): 多言語脆弱性検出のための大規模言語モデルに関する予備的検討
- Authors: Junji Yu, Honglin Shu, Michael Fu, Dong Wang, Chakkrit Tantithamthavorn, Yasutaka Kamei, Junjie Chen,
- Abstract要約: 言語モデル(LLM)は言語に依存しない機能と意味理解の強化を提供する。
大規模言語モデル(LLM)の最近の進歩は、言語に依存しない機能と意味理解の強化を提供する。
以上の結果から, PLM CodeT5Pは多言語脆弱性検出において最高の性能を発揮することが明らかとなった。
- 参考スコア(独自算出の注目度): 13.269680075539135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning-based approaches, particularly those leveraging pre-trained language models (PLMs), have shown promise in automated software vulnerability detection. However, existing methods are predominantly limited to specific programming languages, restricting their applicability in multilingual settings. Recent advancements in large language models (LLMs) offer language-agnostic capabilities and enhanced semantic understanding, presenting a potential solution to this limitation. While existing studies have explored LLMs for vulnerability detection, their detection performance remains unknown for multilingual vulnerabilities. To address this gap, we conducted a preliminary study to evaluate the effectiveness of PLMs and state-of-the-art LLMs across seven popular programming languages. Our findings reveal that the PLM CodeT5P achieves the best performance in multilingual vulnerability detection, particularly in identifying the most critical vulnerabilities. Based on these results, we further discuss the potential of LLMs in advancing real-world multilingual vulnerability detection. This work represents an initial step toward exploring PLMs and LLMs for cross-language vulnerability detection, offering key insights for future research and practical deployment.
- Abstract(参考訳): ディープラーニングベースのアプローチ、特にプレトレーニング言語モデル(PLM)を活用するアプローチは、自動ソフトウェア脆弱性検出において有望であることを示している。
しかし、既存のメソッドは主に特定のプログラミング言語に限られており、多言語設定での適用性を制限している。
大規模言語モデル(LLM)の最近の進歩は、言語に依存しない能力と意味理解の強化を提供し、この制限に対する潜在的な解決策を提示している。
既存の研究では、脆弱性検出のためのLSMを探索しているが、その検出性能は多言語脆弱性に対しては未だ不明である。
このギャップに対処するために、我々は7つの人気のあるプログラミング言語におけるPLMと最先端のLLMの有効性を評価する予備的研究を行った。
以上の結果から, PLM CodeT5Pは多言語脆弱性の検出において, 特に重要な脆弱性の特定において, 最高の性能を発揮することがわかった。
これらの結果に基づき、実世界の多言語脆弱性検出の進展におけるLLMの可能性をさらに議論する。
この研究は、言語間脆弱性検出のためのPLMとLSMを探索するための最初のステップであり、将来の研究と実践的な展開のための重要な洞察を提供する。
関連論文リスト
- MVD: A Multi-Lingual Software Vulnerability Detection Framework [1.0771072841012608]
MVD - 革新的な多言語脆弱性検出フレームワークを紹介する。
このフレームワークは、様々な言語の脆弱性データから同時に学習することで、複数の言語にまたがる脆弱性を検出する能力を得る。
本フレームワークは,多言語脆弱性検出における最先端手法を,PR-AUCの83.7%から193.6%で大幅に上回っている。
論文 参考訳(メタデータ) (2024-12-09T02:58:10Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Towards Explainable Vulnerability Detection with Large Language Models [17.96542494363619]
ソフトウェア脆弱性は、ソフトウェアシステムのセキュリティと整合性に重大なリスクをもたらす。
大規模言語モデル(LLMs)の出現は、その高度な生成能力による変換ポテンシャルを導入している。
本稿では,脆弱性検出と説明という2つのタスクにLLMを専門化する自動フレームワークであるLLMVulExpを提案する。
論文 参考訳(メタデータ) (2024-06-14T04:01:25Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - How Far Have We Gone in Vulnerability Detection Using Large Language
Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。
このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。
いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-21T08:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。