Fugu-MT 論文翻訳(概要): Chain-of-Thought Prompting of Large Language Models for Discovering and Fixing Software Vulnerabilities

論文の概要: Chain-of-Thought Prompting of Large Language Models for Discovering and Fixing Software Vulnerabilities

arxiv url: http://arxiv.org/abs/2402.17230v1
Date: Tue, 27 Feb 2024 05:48:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 06:59:15.620439
Title: Chain-of-Thought Prompting of Large Language Models for Discovering and Fixing Software Vulnerabilities
Title（参考訳）: ソフトウェア脆弱性の発見と修正のための大規模言語モデルの連鎖プロンプト
Authors: Yu Nong, Mohammed Aldeen, Long Cheng, Hongxin Hu, Feng Chen, Haipeng Cai,
Abstract要約: 大規模言語モデル(LLM)は、様々な領域において顕著な可能性を示している。本稿では,LLMとチェーン・オブ・シント(CoT)を利用して,3つの重要なソフトウェア脆弱性解析タスクに対処する方法について検討する。ベースラインよりもCoTにインスパイアされたプロンプトのかなりの優位性を示します。
参考スコア（独自算出の注目度）: 21.787125867708962
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Security vulnerabilities are increasingly prevalent in modern software and they are widely consequential to our society. Various approaches to defending against these vulnerabilities have been proposed, among which those leveraging deep learning (DL) avoid major barriers with other techniques hence attracting more attention in recent years. However, DL-based approaches face critical challenges including the lack of sizable and quality-labeled task-specific datasets and their inability to generalize well to unseen, real-world scenarios. Lately, large language models (LLMs) have demonstrated impressive potential in various domains by overcoming those challenges, especially through chain-of-thought (CoT) prompting. In this paper, we explore how to leverage LLMs and CoT to address three key software vulnerability analysis tasks: identifying a given type of vulnerabilities, discovering vulnerabilities of any type, and patching detected vulnerabilities. We instantiate the general CoT methodology in the context of these tasks through VSP , our unified, vulnerability-semantics-guided prompting approach, and conduct extensive experiments assessing VSP versus five baselines for the three tasks against three LLMs and two datasets. Results show substantial superiority of our CoT-inspired prompting (553.3%, 36.5%, and 30.8% higher F1 accuracy for vulnerability identification, discovery, and patching, respectively, on CVE datasets) over the baselines. Through in-depth case studies analyzing VSP failures, we also reveal current gaps in LLM/CoT for challenging vulnerability cases, while proposing and validating respective improvements.
Abstract（参考訳）: 現代のソフトウェアでは、セキュリティの脆弱性がますます多くなり、私たちの社会に広く当てはまります。これらの脆弱性に対して防御する様々なアプローチが提案されており、その中にはディープラーニング(DL)を利用する者が他の手法による大きな障壁を回避しているため、近年は注目を集めている。しかし、DLベースのアプローチは、サイズと品質をラベル付けしたタスク固有のデータセットの欠如や、目に見えない現実世界のシナリオにうまく一般化できないなど、重要な課題に直面している。近年、大規模言語モデル (LLM) はこれらの課題を克服し、特にチェーン・オブ・思想 (CoT) のプロンプトを通じて、様々な領域において顕著な可能性を実証している。本稿では, LLMとCoTを利用して, 脆弱性の特定, 脆弱性の発見, 検出された脆弱性のパッチ作成という, 3つの重要なソフトウェア脆弱性解析課題に対処する方法について検討する。我々は、これらのタスクのコンテキストにおいて、VSPを通じて一般的なCoT方法論をインスタンス化し、VSPを3つのLLMと2つのデータセットに対して5つのベースラインに対して評価する広範囲な実験を行う。結果は、ベースラインよりもCoTにインスパイアされたプロンプト(553.3%、36.5%、30.8%高いF1精度で脆弱性の識別、発見、パッチング)がかなり優れていることを示している。 VSPの障害を分析した詳細なケーススタディを通じて、脆弱性ケースに対するLLM/CoTの現在のギャップを明らかにし、それぞれの改善を提案し、検証する。

関連論文リスト

Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。 VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文参考訳（メタデータ） (2025-08-06T09:03:10Z)
Improving LLM Reasoning for Vulnerability Detection via Group Relative Policy Optimization [45.799380822683034]
大規模言語モデル(LLM)のためのRLベースファインタニング技術の進歩を目的とした広範な研究を提案する。一般的に採用されているLSMには,特定の脆弱性を過度に予測する傾向があり,他の脆弱性を検出できない,といった,重要な制限が強調される。この課題に対処するために、構造化されたルールベースの報酬を通してLLMの振る舞いを導くための最近の政策段階的手法であるグループ相対政策最適化(GRPO)について検討する。
論文参考訳（メタデータ） (2025-07-03T11:52:45Z)
Improving vulnerability type prediction and line-level detection via adversarial training-based data augmentation and multi-task learning [10.375389754684905]
MTL(Multi-task Learning)とEDAT( Embedding-Layer-Driven Adversarial Training)を統合する統一的なアプローチを提案する。提案手法は,VTP(Vulnerability Type Prediction)タスクとLVD(Line-level Vulnerability Detection)タスクの両方において,最先端のベースラインよりも優れている。
論文参考訳（メタデータ） (2025-06-30T05:47:09Z)
Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文参考訳（メタデータ） (2025-06-14T04:04:54Z)
SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。特定のシナリオは、25倍の攻撃率を被る。 MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文参考訳（メタデータ） (2025-04-09T06:53:23Z)
REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。 REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文参考訳（メタデータ） (2025-03-20T07:54:35Z)
LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。本稿では,脆弱性検出におけるLSMの詳細な調査を行う。言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文参考訳（メタデータ） (2025-02-10T21:33:38Z)
Large Language Models for In-File Vulnerability Localization Can Be "Lost in the End" [6.6389862916575275]
新しい開発手法では、研究者はLLMが大規模なファイルサイズの入力を効果的に分析できるかどうかを調べる必要がある。本稿では,GPTモデルを含む,最先端のチャットベースのLLMがファイル内脆弱性の検出に有効であることを示す。
論文参考訳（メタデータ） (2025-02-09T14:51:15Z)
Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文参考訳（メタデータ） (2025-02-03T18:43:36Z)
ChatNVD: Advancing Cybersecurity Vulnerability Assessment with Large Language Models [0.46873264197900916]
本稿では,Large Language Models (LLMs) のソフトウェア脆弱性評価への応用について検討する。我々は,OpenAIによるGPT-4o mini,MetaによるLlama 3,GoogleによるGemini 1.5 Proの3つの著名なLCMを利用して,ChatNVDの3つの変種を開発した。それらの有効性を評価するために,一般的なセキュリティ脆弱性質問を含む包括的アンケートを用いて,これらのモデルの比較分析を行った。
論文参考訳（メタデータ） (2024-12-06T03:45:49Z)
Data Quality Issues in Vulnerability Detection Datasets [1.6114012813668932]
脆弱性検出は、サイバーセキュリティのためのソフトウェアの潜在的な弱点を特定する上で、極めて難しいタスクである。深層学習(DL)は検出プロセスの自動化に大きな進歩を遂げた。この目的のためにDLモデルをトレーニングするために、多くのデータセットが作成されています。しかし、これらのデータセットは、DLモデルの検出精度の低下につながるいくつかの問題に悩まされる。
論文参考訳（メタデータ） (2024-10-08T13:31:29Z)
FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。 FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
論文参考訳（メタデータ） (2024-09-30T06:27:53Z)
SAFE: Advancing Large Language Models in Leveraging Semantic and Syntactic Relationships for Software Vulnerability Detection [23.7268575752712]
ソフトウェア脆弱性(SV)は、安全クリティカルなセキュリティシステムにとって、一般的かつ重要な懸念事項として浮上している。本稿では,SVDのソースコードデータから意味的・統語的関係を学習し,活用するための大規模言語モデルの能力を高める新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-02T00:49:02Z)
Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection [9.652886240532741]
本稿では,ソースコードの脆弱性検出における大規模言語モデルの機能について,徹底的に解析する。我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能を評価する。
論文参考訳（メタデータ） (2024-08-29T10:00:57Z)
A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。 LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文参考訳（メタデータ） (2024-07-10T06:57:58Z)
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文参考訳（メタデータ） (2024-06-24T15:16:45Z)
Enhancing Code Vulnerability Detection via Vulnerability-Preserving Data Augmentation [29.72520866016839]
ソースコードの脆弱性検出は、潜在的な攻撃からソフトウェアシステムを保護するための固有の脆弱性を特定することを目的としている。多くの先行研究は、様々な脆弱性の特徴を見落とし、問題をバイナリ(0-1)分類タスクに単純化した。 FGVulDetは、さまざまな脆弱性タイプの特徴を識別するために複数の分類器を使用し、その出力を組み合わせて特定の脆弱性タイプを特定する。 FGVulDetはGitHubの大規模なデータセットでトレーニングされており、5種類の脆弱性を含んでいる。
論文参考訳（メタデータ） (2024-04-15T09:10:52Z)
Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文参考訳（メタデータ） (2023-12-04T18:58:57Z)
How Far Have We Gone in Vulnerability Detection Using Large Language Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-11-21T08:20:39Z)
A Survey on Programmatic Weak Supervision [74.13976343129966]
本稿では、PWS学習パラダイムの簡単な紹介と、各PWS学習ワークフローに対する代表的アプローチのレビューを行う。この分野の今後の方向性に刺激を与えるために、この分野でまだ探索されていないいくつかの重要な課題を特定します。
論文参考訳（メタデータ） (2022-02-11T04:05:38Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。