論文の概要: R2Vul: Learning to Reason about Software Vulnerabilities with Reinforcement Learning and Structured Reasoning Distillation
- arxiv url: http://arxiv.org/abs/2504.04699v1
- Date: Mon, 07 Apr 2025 03:04:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:51.022430
- Title: R2Vul: Learning to Reason about Software Vulnerabilities with Reinforcement Learning and Structured Reasoning Distillation
- Title(参考訳): R2Vul: 強化学習と構造的推論蒸留によるソフトウェア脆弱性の推論
- Authors: Martin Weyssow, Chengran Yang, Junkai Chen, Yikun Li, Huihui Huang, Ratnadira Widyasari, Han Wei Ang, Frank Liauw, Eng Lieh Ouh, Lwin Khin Shar, David Lo,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア脆弱性検出(SVD)において有望な性能を示している。
既存のアプローチはチェーン・オブ・思想(CoT)に依存しており、関連性があり実行可能なセキュリティアセスメントを提供するのに苦労している。
我々は、AIフィードバックからの強化学習を用いて、構造化推論を小さなLLMに蒸留する新しいアプローチR2Vulを紹介する。
- 参考スコア(独自算出の注目度): 9.173690436159744
- License:
- Abstract: Large language models (LLMs) have shown promising performance in software vulnerability detection (SVD), yet their reasoning capabilities remain unreliable. Existing approaches relying on chain-of-thought (CoT) struggle to provide relevant and actionable security assessments. Additionally, effective SVD requires not only generating coherent reasoning but also differentiating between well-founded and misleading yet plausible security assessments, an aspect overlooked in prior work. To this end, we introduce R2Vul, a novel approach that distills structured reasoning into small LLMs using reinforcement learning from AI feedback (RLAIF). Through RLAIF, R2Vul enables LLMs to produce structured, security-aware reasoning that is actionable and reliable while explicitly learning to distinguish valid assessments from misleading ones. We evaluate R2Vul across five languages against SAST tools, CoT, instruction tuning, and classification-based baselines. Our results show that R2Vul with structured reasoning distillation enables a 1.5B student LLM to rival larger models while improving generalization to out-of-distribution vulnerabilities. Beyond model improvements, we contribute a large-scale, multilingual preference dataset featuring structured reasoning to support future research in SVD.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア脆弱性検出(SVD)において有望な性能を示しているが、その推論能力は信頼できないままである。
既存のアプローチはチェーン・オブ・思想(CoT)に依存しており、関連性があり実行可能なセキュリティアセスメントを提供するのに苦労している。
さらに、効果的なSVDはコヒーレントな推論を生成するだけでなく、十分に確立されていると誤解を招くセキュリティアセスメントを区別する必要がある。
この目的のために、AIフィードバック(RLAIF)からの強化学習を用いて、構造的推論を小さなLLMに蒸留する新しいアプローチR2Vulを紹介する。
RLAIFを通じて、R2VulはLLMが構造化されたセキュリティを意識した推論を作成できる。
我々は,5言語にわたるR2Vulを,SASTツール,CoT,命令チューニング,分類ベースラインに対して評価する。
以上の結果から, 構造化推論蒸留を用いたR2Vulは, 1.5B の学生 LLM がより大きなモデルと競合し, 配布外脆弱性への一般化が向上することを示した。
モデルの改良に加えて,SVDにおける将来の研究を支援する構造化推論を特徴とする大規模多言語嗜好データセットも提案する。
関連論文リスト
- Code Change Intention, Development Artifact and History Vulnerability: Putting Them Together for Vulnerability Fix Detection by LLM [13.278153690972243]
VulFixMinerとCoLeFunDaは、開発アーティファクトから必須のコンテキストを無視して、コードの変更のみに焦点を当てている。
LLM4VFD(Large Language Models (LLMs)) とChain-of-Thought推論とIn-Context Learningを併用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-24T23:40:03Z) - In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Towards Explainable Vulnerability Detection with Large Language Models [17.96542494363619]
ソフトウェア脆弱性は、ソフトウェアシステムのセキュリティと整合性に重大なリスクをもたらす。
大規模言語モデル(LLMs)の出現は、その高度な生成能力による変換ポテンシャルを導入している。
本稿では,脆弱性検出と説明という2つのタスクにLLMを専門化する自動フレームワークであるLLMVulExpを提案する。
論文 参考訳(メタデータ) (2024-06-14T04:01:25Z) - M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection [52.4455893010468]
大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。
CodeBERTのようなコードモデルは微調整が容易であるが、複雑なコード言語から脆弱性のセマンティクスを学ぶことはしばしば困難である。
本稿では,M2CVD(Multi-Model Collaborative Vulnerability Detection)手法を提案する。
論文 参考訳(メタデータ) (2024-06-10T00:05:49Z) - Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models [8.167614500821223]
脆弱性検出のためのMSIVD, マルチタスクによる自己指示型微調整を, チェーン・オブ・シント・プロンプトとLDMによる自己指示にインスパイアした。
実験の結果,MSIVDは高い性能を示し,LineVul(LLMベースの脆弱性検出ベースライン)はBigVulデータセットでは0.92点,PreciseBugsデータセットでは0.48点であった。
論文 参考訳(メタデータ) (2024-06-09T19:18:05Z) - DLAP: A Deep Learning Augmented Large Language Model Prompting Framework for Software Vulnerability Detection [12.686480870065827]
本稿では,ディープラーニング(DL)モデルとLLM(Large Language Models)モデルの両方を最大限に組み合わせて,例外的な脆弱性検出性能を実現するフレームワークである textbfDLAP について述べる。
実験の結果、DLAPは、ロールベースのプロンプト、補助情報プロンプト、チェーン・オブ・シントプロンプト、コンテキスト内学習プロンプトなど、最先端のプロンプトフレームワークより優れていることが確認された。
論文 参考訳(メタデータ) (2024-05-02T11:44:52Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。
本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。
ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文 参考訳(メタデータ) (2024-03-30T08:42:10Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。