論文の概要: VULPO: Context-Aware Vulnerability Detection via On-Policy LLM Optimization
- arxiv url: http://arxiv.org/abs/2511.11896v2
- Date: Tue, 18 Nov 2025 18:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.65849
- Title: VULPO: Context-Aware Vulnerability Detection via On-Policy LLM Optimization
- Title(参考訳): VULPO: オンデマンドLLM最適化によるコンテキスト認識脆弱性検出
- Authors: Youpeng Li, Fuxun Yu, Xinda Wang,
- Abstract要約: 本稿では、コンテキスト認識型脆弱性検出のためのLLM強化学習フレームワークであるVulnerability-Adaptive Policy Optimization (VULPO)を紹介する。
トレーニングと評価を支援するために,我々はまず,高品質な関数レベルのサンプルを軽量な方法で拡張し,リポジトリレベルのコンテキスト情報を抽出するContextVulを構築した。
異なる脆弱性ケースの非対称的な難しさに対処し、報酬ハックを緩和するために、VULPOはラベルレベルとサンプルレベルの難易度適応型報酬スケーリングを取り入れている。
- 参考スコア(独自算出の注目度): 2.6678231901651723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread reliance on open-source software dramatically increases the risk of vulnerability exploitation, underscoring the need for effective and scalable vulnerability detection (VD). Existing VD techniques, whether traditional machine learning-based or LLM-based approaches like prompt engineering, supervised fine-tuning, or off-policy preference optimization, remain fundamentally limited in their ability to perform context-aware analysis: They depend on fixed inputs or static preference datasets, cannot adaptively explore repository-level dependencies, and are constrained by function-level benchmarks that overlook critical vulnerability context. This paper introduces Vulnerability-Adaptive Policy Optimization (VULPO), an on-policy LLM reinforcement learning framework for context-aware VD. To support training and evaluation, we first construct ContextVul, a new dataset that augments high-quality function-level samples with lightweight method to extract repository-level context information. We then design multi-dimensional reward structuring that jointly captures prediction correctness, vulnerability localization accuracy, and the semantic relevance of vulnerability analysis, thereby guiding the model toward comprehensive contextual reasoning. To address the asymmetric difficulty of different vulnerability cases and mitigate reward hacking, VULPO incorporates label-level and sample-level difficulty-adaptive reward scaling, encouraging the model to explore challenging cases while maintaining balanced reward distribution. Extensive experiments demonstrate the superiority of our VULPO framework in context-aware VD: Our VULPO-4B substantially outperforms existing VD baselines based on prompt engineering and off-policy optimization, improving F1 by 85% over Qwen3-4B and achieving performance comparable to a 150x larger-scale model, DeepSeek-R1-0528.
- Abstract(参考訳): オープンソースソフトウェアへの広範な依存は、脆弱性のエクスプロイトのリスクを劇的に増加させ、効果的でスケーラブルな脆弱性検出(VD)の必要性を浮き彫りにした。
既存のVD技術、例えば、プロンプトエンジニアリング、教師付き微調整、あるいは非政治的な選好最適化といった機械学習ベースのアプローチは、コンテキスト認識分析を実行する能力において、基本的に制限されている。
本稿では,Vulnerability-Adaptive Policy Optimization (VULPO)を提案する。
トレーニングと評価を支援するために,我々はまず,高品質な関数レベルのサンプルを軽量な方法で拡張し,リポジトリレベルのコンテキスト情報を抽出するContextVulを構築した。
次に、予測正当性、脆弱性の局所化精度、および脆弱性分析の意味的関連性を共同でキャプチャする多次元報酬構造を設計し、包括的文脈推論に向けてモデルを導く。
異なる脆弱性ケースの非対称的な困難に対処し、報酬のハッキングを緩和するために、VULPOはラベルレベルとサンプルレベルの難易度適応型報酬スケーリングを導入し、バランスの取れた報酬分布を維持しながら、挑戦的なケースの探索を奨励する。
我々のVULPO-4Bは、迅速なエンジニアリングと非政治最適化に基づいて既存のVDベースラインを大幅に上回り、Qwen3-4BよりもF1を85%改善し、150倍の大規模モデルであるDeepSeek-R1-0528に匹敵するパフォーマンスを実現しています。
関連論文リスト
- Reinforcement Fine-Tuning of Flow-Matching Policies for Vision-Language-Action Models [7.316631310935769]
VLA(Vision-Language-Action)モデルは、大規模なデモンストレーションを活用することで、強力な一般化を示している。
本研究では,FPOアルゴリズムを提案する。FPOアルゴリズムは,条件付きフローマッチングの目的に対して,サンプルごとの変化を生かして,重要サンプリングを再構築する。
LIBEROベンチマークのFPOとALOHAシミュレーションタスクを、教師付き、嗜好的、拡散的、自己回帰的オンラインRLに対して評価する。
論文 参考訳(メタデータ) (2025-10-11T03:11:18Z) - Analytical Survey of Learning with Low-Resource Data: From Analysis to Investigation [192.53529928861818]
高リソースデータによる学習は人工知能(AI)において大きな成功を収めた
しかし、データアノテーションやモデルトレーニングに関連するコストは依然として大きい。
本調査では,低リソースデータからの学習に伴う一般化誤差とラベル複雑性を分析するために,アクティブサンプリング理論を用いた。
論文 参考訳(メタデータ) (2025-10-10T03:15:42Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Improving LLM Reasoning for Vulnerability Detection via Group Relative Policy Optimization [45.799380822683034]
大規模言語モデル(LLM)のためのRLベースファインタニング技術の進歩を目的とした広範な研究を提案する。
一般的に採用されているLSMには,特定の脆弱性を過度に予測する傾向があり,他の脆弱性を検出できない,といった,重要な制限が強調される。
この課題に対処するために、構造化されたルールベースの報酬を通してLLMの振る舞いを導くための最近の政策段階的手法であるグループ相対政策最適化(GRPO)について検討する。
論文 参考訳(メタデータ) (2025-07-03T11:52:45Z) - Boosting Vulnerability Detection of LLMs via Curriculum Preference Optimization with Synthetic Reasoning Data [22.557961978833386]
本稿では,脆弱性パターンのマイニングに優れた大規模言語モデル(LLM)の新たなフレームワークを提案する。
具体的には、脆弱性と対応する固定コードに対する前方および後方の推論プロセスを構築し、高品質な推論データの合成を保証する。
ReVD は LLM ベースのソフトウェア脆弱性検出のための新たな最先端技術,例えば 12.24%-22.77% の精度向上を実現している。
論文 参考訳(メタデータ) (2025-06-09T03:25:23Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection [9.652886240532741]
本稿では,ソースコードの脆弱性検出における大規模言語モデルの機能について,徹底的に解析する。
我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-08-29T10:00:57Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。