論文の概要: From SFT to RL: Demystifying the Post-Training Pipeline for LLM-based Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2602.14012v1
- Date: Sun, 15 Feb 2026 06:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.599757
- Title: From SFT to RL: Demystifying the Post-Training Pipeline for LLM-based Vulnerability Detection
- Title(参考訳): SFTからRLへ:LSMによる脆弱性検出のための後処理パイプラインのデミスト化
- Authors: Youpeng Li, Fuxun Yu, Xinda Wang,
- Abstract要約: LLMに基づく脆弱性検出のための訓練後パイプラインに関する最初の包括的調査を行う。
本研究は,データキュレーション,ステージインタラクション,報酬メカニズム,評価プロトコルがモデルトレーニングと評価の有効性を総合的に規定するなど,実践的なガイドラインと洞察を明らかにする。
- 参考スコア(独自算出の注目度): 2.6678231901651723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of LLMs into vulnerability detection (VD) has shifted the field toward interpretable and context-aware analysis. While post-training methods have shown promise in general coding tasks, their systematic application to VD remains underexplored. In this paper, we present the first comprehensive investigation into the post-training pipeline for LLM-based VD, spanning from cold-start SFT to off-policy preference optimization and on-policy RL, uncovering how data curation, stage interactions, reward mechanisms, and evaluation protocols collectively dictate the efficacy of model training and assessment. Our study identifies practical guidelines and insights: (1) SFT based on rejection sampling greatly outperforms rationalization-based supervision, which can introduce hallucinations due to ground-truth leakage. (2) While increased SFT epochs constantly benefit preference optimization, excessive SFT inhibits self-exploration during RL, ultimately limiting performance gains. (3) Coarse-grained reward signals often mislead RL, whereas fine-grained root-cause judgments ensure reliable credit assignment. Specification-based rewards offer further benefits but incur significant effort in specification generation. (4) Although filtering extremely hard-to-detect vulnerability samples improves RL training efficiency, the cost of performance loss should be considered in practical applications. (5) Models trained under GRPO significantly outperform those using SFT and preference optimization (i.e., DPO and ORPO), as well as a series of zero-shot SOTA LLMs, underscoring the significant potential of on-policy RL for LLM-based VD. (6) In contrast to binary matching that tends to overestimate performance, LLM-as-a-Judge based on root-cause analysis provides a more robust evaluation protocol, although its accuracy varies across judge models with different levels of security expertise.
- Abstract(参考訳): LLMの脆弱性検出(VD)への統合は、解釈可能な文脈認識分析へとフィールドを移した。
ポストトレーニング手法は一般的なコーディングタスクにおいて有望であるが、VDへの体系的な応用はいまだ未定である。
本稿では,LLMベースのVDのトレーニング後パイプラインについて,コールドスタートSFTからオフ・プライオリティ最適化,オン・ポリティ・RLまで,データキュレーション,ステージインタラクション,報酬機構,評価プロトコルが総合的にモデルトレーニングと評価の有効性を規定していることを示す。
本研究は,(1)拒絶サンプリングに基づくSFTが合理化に基づく指導を著しく上回り,地中流出による幻覚を誘発する,実践的ガイドラインと洞察を明らかにする。
2) SFTエポックの増加は、常に優先最適化に寄与するが、過剰なSFTはRL中の自己探索を阻害し、最終的に性能向上を制限する。
3) 粗大な報酬信号はしばしばRLを誤解させるが, 微粒な根源判断は信頼度を保証している。
仕様ベースの報酬はさらなるメリットを提供するが、仕様生成に多大な努力を払っている。
(4) 検出し難い脆弱性サンプルのフィルタリングはRLトレーニング効率を向上させるが,実用アプリケーションでは性能損失のコストを考慮する必要がある。
(5) GRPO の下で訓練されたモデルは、SFT と選好最適化(DPO と ORPO)および一連のゼロショット SOTA LLM よりも優れており、LLM ベースの VD に対するオンライン RL の有意な可能性を示している。
(6)性能を過大評価する二項マッチングとは対照的に、LLM-as-a-Judgeは根本原因分析に基づくより堅牢な評価プロトコルを提供する。
関連論文リスト
- Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:37:07Z) - Rethinking Expert Trajectory Utilization in LLM Post-training [35.018182540417236]
我々は,この景観を基盤として,プラスチック・シーリング・フレームワークを提案する。
逐次SFT-then-RLパイプラインを優れた標準として確立する。
本研究は,専門家軌道から抽出した値の最大化のための実用的なガイドラインを提供する。
論文 参考訳(メタデータ) (2025-12-12T11:13:00Z) - Enhancing Radiology Report Generation and Visual Grounding using Reinforcement Learning [15.894854593567963]
強化学習はタスク固有のフィードバックを取り入れることができ、その中間的推論(思考)と組み合わせることで、検証可能な数学やコーディングタスクに大きな利益が得られた。
我々はQwen3-VLに基づく視覚言語モデルを構築し,その後に基本思考能力を備えた冷間開始型SFTステージを構築した。
高いベース性能には強いSFTが不可欠であるが、RLは両方のタスクに追加の利得を与えるのに対し、明示的な思考は結果をさらに改善するわけではない。
論文 参考訳(メタデータ) (2025-12-11T14:36:14Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。