Fugu-MT 論文翻訳(概要): MVD: A Multi-Lingual Software Vulnerability Detection Framework

論文の概要: MVD: A Multi-Lingual Software Vulnerability Detection Framework

arxiv url: http://arxiv.org/abs/2412.06166v1
Date: Mon, 09 Dec 2024 02:58:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.199751
Title: MVD: A Multi-Lingual Software Vulnerability Detection Framework
Title（参考訳）: MVD:多言語ソフトウェア脆弱性検出フレームワーク
Authors: Boyu Zhang, Triet H. M. Le, M. Ali Babar,
Abstract要約: MVD - 革新的な多言語脆弱性検出フレームワークを紹介する。このフレームワークは、様々な言語の脆弱性データから同時に学習することで、複数の言語にまたがる脆弱性を検出する能力を得る。本フレームワークは,多言語脆弱性検出における最先端手法を,PR-AUCの83.7%から193.6%で大幅に上回っている。
参考スコア（独自算出の注目度）: 1.0771072841012608
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Software vulnerabilities can result in catastrophic cyberattacks that increasingly threaten business operations. Consequently, ensuring the safety of software systems has become a paramount concern for both private and public sectors. Recent literature has witnessed increasing exploration of learning-based approaches for software vulnerability detection. However, a key limitation of these techniques is their primary focus on a single programming language, such as C/C++, which poses constraints considering the polyglot nature of modern software projects. Further, there appears to be an oversight in harnessing the synergies of vulnerability knowledge across varied languages, potentially underutilizing the full capabilities of these methods. To address the aforementioned issues, we introduce MVD - an innovative multi-lingual vulnerability detection framework. This framework acquires the ability to detect vulnerabilities across multiple languages by concurrently learning from vulnerability data of various languages, which are curated by our specialized pipeline. We also incorporate incremental learning to enable the detection capability of MVD to be extended to new languages, thus augmenting its practical utility. Extensive experiments on our curated dataset of more than 11K real-world multi-lingual vulnerabilities substantiate that our framework significantly surpasses state-of-the-art methods in multi-lingual vulnerability detection by 83.7% to 193.6% in PR-AUC. The results also demonstrate that MVD detects vulnerabilities well for new languages without compromising the detection performance of previously trained languages, even when training data for the older languages is unavailable. Overall, our findings motivate and pave the way for the prediction of multi-lingual vulnerabilities in modern software systems.
Abstract（参考訳）: ソフトウェアの脆弱性は破滅的なサイバー攻撃を招き、ビジネス運用を脅かす恐れがある。その結果、ソフトウェアシステムの安全性を確保することが、民間と公共の両方にとって最重要課題となっている。近年の文献では、ソフトウェア脆弱性検出のための学習ベースのアプローチの探求が活発化している。しかし、これらのテクニックの重要な制限は、C/C++のような単一のプログラミング言語に重点を置いており、現代のソフトウェアプロジェクトの多言語性を考慮して制約を課している。さらに、様々な言語にまたがる脆弱性の知識の相乗効果を活用することには、注意が必要であるように思われる。上記の問題に対処するために,革新的な多言語脆弱性検出フレームワークであるMVDを導入する。このフレームワークは,さまざまな言語の脆弱性データから同時に学習することで,複数の言語にまたがる脆弱性を検出する能力を得る。また,段階的な学習を取り入れて,MVDの検出能力を新たな言語に拡張し,実用性を高める。実世界の1万以上のマルチリンガル脆弱性のキュレートされたデータセットに対する大規模な実験は、我々のフレームワークがマルチリンガル脆弱性検出における最先端の手法を83.7%から193.6%のPR-AUCで大幅に上回っていることを裏付けている。また、MVDは、古い言語のトレーニングデータが利用できない場合でも、事前訓練された言語の検出性能を損なうことなく、新しい言語の脆弱性を適切に検出することを示した。全体として、我々の発見は現代のソフトウェアシステムにおける多言語脆弱性の予測の原動力となり、道を開いた。

関連論文リスト

MulVuln: Enhancing Pre-trained LMs with Shared and Language-Specific Knowledge for Multilingual Vulnerability Detection [22.197550174544627]
MULVULNは、複数の言語にわたるソースコードから学習する、新しい多言語脆弱性検出アプローチである。現実世界の多言語ソフトウェアシステムにおいて、より堅牢で効果的な脆弱性検出を実現する。特に、MULVULNはF1スコアがかなり高く、ベースライン法に比べて1.45%から23.59%改善されている。
論文参考訳（メタデータ） (2025-10-05T23:33:26Z)
Large Language Models for Multilingual Vulnerability Detection: How Far Are We? [13.269680075539135]
多言語脆弱性検出のための事前学習言語モデル(PLM)と大規模言語モデル(LLM)の有効性を評価する。 7つの言語にまたがる3万以上の現実世界の脆弱性修正パッチを使用して、機能レベルとラインレベルの両方でモデルパフォーマンスを評価します。 GPT-4oはインストラクションチューニングと数発のプロンプトによって強化され、他の評価モデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2025-06-09T07:27:49Z)
OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities [54.152681077418805]
現在の検出アプローチは誤りがあり、特にモデル機能のミスマッチした一般化を利用する攻撃の影響を受けやすい。 OMNIGUARDは,言語やモダリティにまたがる有害なプロンプトを検出する手法である。提案手法は,多言語環境において最強のベースラインよりも11.57%,有害なプロンプト分類精度を向上する。
論文参考訳（メタデータ） (2025-05-29T05:25:27Z)
A Preliminary Study of Large Language Models for Multilingual Vulnerability Detection [13.269680075539135]
言語モデル(LLM)は言語に依存しない機能と意味理解の強化を提供する。大規模言語モデル(LLM)の最近の進歩は、言語に依存しない機能と意味理解の強化を提供する。以上の結果から, PLM CodeT5Pは多言語脆弱性検出において最高の性能を発揮することが明らかとなった。
論文参考訳（メタデータ） (2025-05-12T09:19:31Z)
MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。推論を用いた多言語ガードレール構築手法を提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:06Z)
Software Vulnerability Analysis Across Programming Language and Program Representation Landscapes: A Survey [9.709395737136006]
本稿では,プログラム言語,プログラム表現レベル,脆弱性のカテゴリ,検出技術について系統的に検討する。脆弱性発見における現在のプラクティスを詳細に理解し、その強み、制限、特徴の区別を明確にする。ソフトウェアセキュリティ分野における将来の研究への有望な方向性を概説している。
論文参考訳（メタデータ） (2025-03-26T05:22:48Z)
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [97.82118821263825]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。 ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文参考訳（メタデータ） (2024-11-25T04:17:24Z)
Enhancing Pre-Trained Language Models for Vulnerability Detection via Semantic-Preserving Data Augmentation [4.374800396968465]
本稿では,脆弱性検出のための事前学習言語モデルの性能向上を目的としたデータ拡張手法を提案する。一連の代表的なコード事前訓練モデルの微調整に当社のデータセットを組み込むことで、最大10.1%の精度向上と23.6%のF1増加を達成することができる。
論文参考訳（メタデータ） (2024-09-30T21:44:05Z)
Large Language Models for Secure Code Assessment: A Multi-Language Empirical Study [1.9116784879310031]
GPT-4oは,数ショット設定を用いて,最も高い脆弱性検出とCWE分類のスコアを達成できることを示す。我々は、VSCodeと統合されたCODEGUARDIANと呼ばれるライブラリを開発し、開発者はLLM支援リアルタイム脆弱性分析を行うことができる。
論文参考訳（メタデータ） (2024-08-12T18:10:11Z)
TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文参考訳（メタデータ） (2024-04-30T14:43:57Z)
Backdoor Attack on Multilingual Machine Translation [53.28390057407576]
マルチリンガル機械翻訳(MNMT)システムにはセキュリティ脆弱性がある。攻撃者は、他の言語で悪意のある翻訳を引き起こすために、有害なデータを低リソースの言語ペアに注入する。この種の攻撃は、低リソース設定に固有の言語の攻撃面が大きいことを考えると、特に懸念される。
論文参考訳（メタデータ） (2024-04-03T01:32:31Z)
CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。 CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文参考訳（メタデータ） (2024-03-12T17:55:38Z)
How Far Have We Gone in Vulnerability Detection Using Large Language Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-11-21T08:20:39Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
Security Vulnerability Detection Using Deep Learning Natural Language Processing [1.4591078795663772]
ソースコードをテキストとして扱う自然言語処理(NLP)問題としてソフトウェア脆弱性検出をモデル化する。トレーニングとテストのために、123タイプの脆弱性を持つ$C$プログラミング言語で10000以上のファイルのデータセットを構築しました。実験は、セキュリティ脆弱性の検出において93%以上の精度で最高のパフォーマンスを生み出します。
論文参考訳（メタデータ） (2021-05-06T01:28:21Z)
Dos and Don'ts of Machine Learning in Computer Security [74.1816306998445]
大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴を引き起こす傾向がある。我々は,学習ベースのセキュリティシステムの設計,実装,評価において共通の落とし穴を特定する。我々は,落とし穴の回避や軽減を支援するために,研究者を支援するための実用的な勧告を提案する。
論文参考訳（メタデータ） (2020-10-19T13:09:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。