Fugu-MT 論文翻訳(概要): Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection

論文の概要: Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection

arxiv url: http://arxiv.org/abs/2408.16400v1
Date: Thu, 29 Aug 2024 10:00:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-30 14:12:45.239112
Title: Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection
Title（参考訳）: 快適ゾーン外:ソフトウェア脆弱性検出におけるLCM機能の解析
Authors: Yuejun Guo, Constantinos Patsakis, Qiang Hu, Qiang Tang, Fran Casino,
Abstract要約: 本稿では,ソースコードの脆弱性検出における大規模言語モデルの機能について,徹底的に解析する。我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能を評価する。
参考スコア（独自算出の注目度）: 9.652886240532741
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The significant increase in software production driven by automation and faster development lifecycles has resulted in a corresponding surge in software vulnerabilities. In parallel, the evolving landscape of software vulnerability detection, highlighting the shift from traditional methods to machine learning and large language models (LLMs), provides massive opportunities at the cost of resource-demanding computations. This paper thoroughly analyses LLMs' capabilities in detecting vulnerabilities within source code by testing models beyond their usual applications to study their potential in cybersecurity tasks. We evaluate the performance of six open-source models that are specifically trained for vulnerability detection against six general-purpose LLMs, three of which were further fine-tuned on a dataset that we compiled. Our dataset, alongside five state-of-the-art benchmark datasets, were used to create a pipeline to leverage a binary classification task, namely classifying code into vulnerable and non-vulnerable. The findings highlight significant variations in classification accuracy across benchmarks, revealing the critical influence of fine-tuning in enhancing the detection capabilities of small LLMs over their larger counterparts, yet only in the specific scenarios in which they were trained. Further experiments and analysis also underscore the issues with current benchmark datasets, particularly around mislabeling and their impact on model training and performance, which raises concerns about the current state of practice. We also discuss the road ahead in the field suggesting strategies for improved model training and dataset curation.
Abstract（参考訳）: 自動化と開発ライフサイクルの高速化によるソフトウェア生産の大幅な増加は、ソフトウェア脆弱性の急増につながった。並行して、ソフトウェア脆弱性検出の進化する状況は、従来のメソッドから機械学習と大規模言語モデル(LLM)への移行を強調し、リソース要求の計算コストで大きなチャンスを提供する。本稿では,LLMのソースコード中の脆弱性検出能力について,通常のセキュリティタスクにおける可能性を研究するために,通常のアプリケーション以外のモデルをテストすることによって,徹底的に解析する。我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能評価を行った。私たちのデータセットは、最先端の5つのベンチマークデータセットとともに、バイナリ分類タスクを活用するパイプラインの作成に使用しました。この結果は、ベンチマーク間での分類精度の有意な違いを浮き彫りにし、より大型のLSMの検出能力を高めるための微調整の重大な影響を明らかにしたが、訓練された特定のシナリオに限られていた。さらなる実験と分析は、現在のベンチマークデータセット、特にミスラベルとモデルトレーニングとパフォーマンスへの影響に関する問題を浮き彫りにしている。また、モデルトレーニングとデータセットのキュレーションを改善するための戦略を提案する。

関連論文リスト

Learn More, Forget Less: A Gradient-Aware Data Selection Approach for LLM [51.21051698747157]
大規模言語モデル(LLM)の教師付き微調整のための自己適応型勾配対応データ選択手法(GrADS)を提案する。具体的には、勾配の大きさと統計的分布を利用した自己指導型基準を設計し、モデルの学習プロセスに最も寄与する例を優先する。 GrADSは、医学、法学、金融など様々な分野にまたがる様々なLLMの広範な実験を通じて、大幅な効率性と費用対効果を示してきた。
論文参考訳（メタデータ） (2025-11-07T08:34:50Z)
Ensembling Large Language Models for Code Vulnerability Detection: An Empirical Evaluation [69.8237598448941]
本研究では,ソースコードの脆弱性検出において,Large Language Models(LLM)の性能を高めるためのアンサンブル学習の可能性を検討する。脆弱性検出に適したスタック機能であるDynamic Gated Stacking (DGS)を提案する。
論文参考訳（メタデータ） (2025-09-16T03:48:22Z)
Improving LLM Reasoning for Vulnerability Detection via Group Relative Policy Optimization [45.799380822683034]
大規模言語モデル(LLM)のためのRLベースファインタニング技術の進歩を目的とした広範な研究を提案する。一般的に採用されているLSMには,特定の脆弱性を過度に予測する傾向があり,他の脆弱性を検出できない,といった,重要な制限が強調される。この課題に対処するために、構造化されたルールベースの報酬を通してLLMの振る舞いを導くための最近の政策段階的手法であるグループ相対政策最適化(GRPO)について検討する。
論文参考訳（メタデータ） (2025-07-03T11:52:45Z)
Boosting Vulnerability Detection of LLMs via Curriculum Preference Optimization with Synthetic Reasoning Data [22.557961978833386]
本稿では,脆弱性パターンのマイニングに優れた大規模言語モデル(LLM)の新たなフレームワークを提案する。具体的には、脆弱性と対応する固定コードに対する前方および後方の推論プロセスを構築し、高品質な推論データの合成を保証する。 ReVD は LLM ベースのソフトウェア脆弱性検出のための新たな最先端技術,例えば 12.24%-22.77% の精度向上を実現している。
論文参考訳（メタデータ） (2025-06-09T03:25:23Z)
Does Machine Unlearning Truly Remove Model Knowledge? A Framework for Auditing Unlearning in LLMs [58.24692529185971]
本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。異なるアンラーニング戦略の有効性とロバスト性を評価する。
論文参考訳（メタデータ） (2025-05-29T09:19:07Z)
LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。本稿では,脆弱性検出におけるLSMの詳細な調査を行う。言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文参考訳（メタデータ） (2025-02-10T21:33:38Z)
Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文参考訳（メタデータ） (2025-02-03T18:43:36Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models [8.167614500821223]
脆弱性検出のためのMSIVD, マルチタスクによる自己指示型微調整を, チェーン・オブ・シント・プロンプトとLDMによる自己指示にインスパイアした。実験の結果,MSIVDは高い性能を示し,LineVul(LLMベースの脆弱性検出ベースライン)はBigVulデータセットでは0.92点,PreciseBugsデータセットでは0.48点であった。
論文参考訳（メタデータ） (2024-06-09T19:18:05Z)
Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文参考訳（メタデータ） (2024-06-05T20:19:09Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文参考訳（メタデータ） (2024-03-30T08:42:10Z)
Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文参考訳（メタデータ） (2024-03-27T14:34:29Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
How Far Have We Gone in Vulnerability Detection Using Large Language Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-11-21T08:20:39Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。