Fugu-MT 論文翻訳(概要): Large Language Model for Vulnerability Detection: Emerging Results and Future Directions

論文の概要: Large Language Model for Vulnerability Detection: Emerging Results and Future Directions

arxiv url: http://arxiv.org/abs/2401.15468v1
Date: Sat, 27 Jan 2024 17:39:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 18:14:50.191331
Title: Large Language Model for Vulnerability Detection: Emerging Results and Future Directions
Title（参考訳）: 脆弱性検出のための大規模言語モデル:新たな結果と今後の方向性
Authors: Xin Zhou, Ting Zhang, David Lo
Abstract要約: 従来の学習ベースの脆弱性検出方法は、中規模の事前訓練モデルか、スクラッチから小さなニューラルネットワークに頼っていた。近年のLarge Pre-Trained Language Models (LLMs) の進歩は,様々なタスクにおいて顕著な数発の学習能力を示した。
参考スコア（独自算出の注目度）: 15.981132063061661
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Previous learning-based vulnerability detection methods relied on either medium-sized pre-trained models or smaller neural networks from scratch. Recent advancements in Large Pre-Trained Language Models (LLMs) have showcased remarkable few-shot learning capabilities in various tasks. However, the effectiveness of LLMs in detecting software vulnerabilities is largely unexplored. This paper aims to bridge this gap by exploring how LLMs perform with various prompts, particularly focusing on two state-of-the-art LLMs: GPT-3.5 and GPT-4. Our experimental results showed that GPT-3.5 achieves competitive performance with the prior state-of-the-art vulnerability detection approach and GPT-4 consistently outperformed the state-of-the-art.
Abstract（参考訳）: 従来の学習ベースの脆弱性検出方法は、中規模の事前訓練モデルか、スクラッチから小さなニューラルネットワークに頼っていた。近年のLarge Pre-Trained Language Models (LLMs) の進歩は,様々なタスクにおいて顕著な数発の学習能力を示した。しかし、ソフトウェア脆弱性の検出におけるllmの有効性はほとんど未解明である。本稿では,LLMが様々なプロンプトでどのように機能するか,特にGPT-3.5 と GPT-4 の2つの最先端 LLM に注目し,このギャップを埋めることを目的とする。実験の結果, GPT-3.5は従来型の脆弱性検出手法と競合する性能を示し, GPT-4は一貫して最先端の脆弱性検出手法よりも優れていた。

関連論文リスト

Large Language Models for Multilingual Vulnerability Detection: How Far Are We? [13.269680075539135]
多言語脆弱性検出のための事前学習言語モデル(PLM)と大規模言語モデル(LLM)の有効性を評価する。 7つの言語にまたがる3万以上の現実世界の脆弱性修正パッチを使用して、機能レベルとラインレベルの両方でモデルパフォーマンスを評価します。 GPT-4oはインストラクションチューニングと数発のプロンプトによって強化され、他の評価モデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2025-06-09T07:27:49Z)
Large Language Models for In-File Vulnerability Localization Can Be "Lost in the End" [6.6389862916575275]
新しい開発手法では、研究者はLLMが大規模なファイルサイズの入力を効果的に分析できるかどうかを調べる必要がある。本稿では,GPTモデルを含む,最先端のチャットベースのLLMがファイル内脆弱性の検出に有効であることを示す。
論文参考訳（メタデータ） (2025-02-09T14:51:15Z)
Investigating Large Language Models for Code Vulnerability Detection: An Experimental Study [20.06503053066937]
システムのセキュリティ問題に対処し、予防するためには、コードの脆弱性検出が不可欠である。従来の学習ベースの脆弱性検出方法は、微調整された中規模シーケンスモデルか、スクラッチから小さなニューラルネットワークをトレーニングするどちらかに依存していた。大規模事前学習言語モデル(LLM)の最近の進歩は、様々なコードインテリジェンスタスクにおいて顕著な機能を示した。
論文参考訳（メタデータ） (2024-12-24T08:20:29Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
Large Language Models for Secure Code Assessment: A Multi-Language Empirical Study [1.9116784879310031]
GPT-4oは,数ショット設定を用いて,最も高い脆弱性検出とCWE分類のスコアを達成できることを示す。我々は、VSCodeと統合されたCODEGUARDIANと呼ばれるライブラリを開発し、開発者はLLM支援リアルタイム脆弱性分析を行うことができる。
論文参考訳（メタデータ） (2024-08-12T18:10:11Z)
Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。特にLSMは敵攻撃に弱いことが知られており、入力に対する非受容的な変更はモデルの出力を誤解させる可能性がある。本稿では,メカニスティック・インタプリタビリティ(MI)技術に基づく手法を提案する。
論文参考訳（メタデータ） (2024-07-29T09:55:34Z)
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文参考訳（メタデータ） (2024-06-24T15:16:45Z)
Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文参考訳（メタデータ） (2024-06-21T02:28:37Z)
An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文参考訳（メタデータ） (2024-03-30T08:42:10Z)
Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。 LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文参考訳（メタデータ） (2024-03-27T22:05:10Z)
How Far Have We Gone in Vulnerability Detection Using Large Language Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-11-21T08:20:39Z)
On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文参考訳（メタデータ） (2023-05-26T13:49:44Z)
Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。 LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文参考訳（メタデータ） (2023-04-19T10:16:03Z)
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文参考訳（メタデータ） (2023-01-27T18:59:01Z)
Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-10-17T14:52:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。