論文の概要: Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2602.06687v1
- Date: Fri, 06 Feb 2026 13:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.405131
- Title: Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models
- Title(参考訳): 大規模言語モデルの脆弱性推論能力の評価と改善
- Authors: Li Lu, Yanjie Zhao, Hongzhou Rao, Kechi Zhang, Haoyu Wang,
- Abstract要約: 本稿では,DAG生成タスクとして脆弱性推論をモデル化する新しいフレームワークであるDAGVulを提案する。
さらにReinforcement Learning with Verifiable Rewards (RLVR)を導入することで、モデル推論トレースをプログラム固有の論理と整合させる。
我々のフレームワークは、すべてのベースラインに対して平均18.9%の推論F1スコアを改善します。
- 参考スコア(独自算出の注目度): 15.849480549367684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable proficiency in vulnerability detection. However, a critical reliability gap persists: models frequently yield correct detection verdicts based on hallucinated logic or superficial patterns that deviate from the actual root cause. This misalignment remains largely obscured because contemporary benchmarks predominantly prioritize coarse-grained classification metrics, lacking the granular ground truth required to evaluate the underlying reasoning process. To bridge this gap, we first construct a benchmark consisting of two datasets: (1) real-world vulnerabilities with expert-curated causal reasoning as ground truth, and (2) semantically equivalent code perturbations for assessing reasoning robustness. Our large-scale empirical study reveals that even state-of-the-art models struggle to maintain logical consistency during semantic code comprehension, exhibiting 12 systematic failure patterns. Addressing these limitations, we propose DAGVul, a novel framework that models vulnerability reasoning as a Directed Acyclic Graph (DAG) generation task. Unlike linear chain-of-thought (CoT), our approach explicitly maps causal dependencies to enforce structural consistency. By further introducing Reinforcement Learning with Verifiable Rewards (RLVR), we align model reasoning trace with program-intrinsic logic. Experimental results demonstrate that our framework improves the reasoning F1-score by an average of 18.9% over all the baselines. Remarkably, our 8B-parameter implementation not only outperforms existing models of comparable scale but also surpasses specialized large-scale reasoning models, including Qwen3-30B-Reasoning and GPT-OSS-20B-High. It is even competitive with state-of-the-art models like Claude-Sonnet-4.5 (75.47% vs. 76.11%), establishing new efficiency in vulnerability reasoning across model scales.
- Abstract(参考訳): 大規模言語モデル(LLM)は、脆弱性検出において顕著な熟練性を示している。
しかし、重要な信頼性のギャップは持続する:モデルはしばしば、実際の根本原因から逸脱する幻覚論理や表面パターンに基づいて、正しい検出の検証結果を得る。
現代のベンチマークでは、大まかに粒度の分類基準が優先されており、根底にある推論プロセスを評価するのに必要な粒度の真実が欠如しているため、このミスアライメントはいまだに明らかになっていない。
このギャップを埋めるために,まず,(1)専門家による因果推論を根拠とする実世界の脆弱性と,(2)理性評価のための意味論的に等価なコード摂動の2つのデータセットからなるベンチマークを構築した。
我々の大規模な実証研究によると、最先端のモデルでさえセマンティックコードの理解中に論理的一貫性を維持するのに苦労しており、12の系統的な障害パターンが示されています。
そこで我々は,DAG生成タスクとして脆弱性推論をモデル化する新しいフレームワークであるDAGVulを提案する。
線形チェーン・オブ・シント(CoT)とは異なり、我々のアプローチは因果依存性を明示的にマッピングして構造的一貫性を強制する。
さらにReinforcement Learning with Verifiable Rewards (RLVR)を導入することで、モデル推論トレースをプログラム固有の論理と整合させる。
実験の結果,F1スコアはベースライン全体に対して平均18.9%向上していることがわかった。
注目すべきは、我々の8Bパラメータの実装は、同等のスケールの既存モデルよりも優れているだけでなく、Qwen3-30B-ReasoningやGPT-OSS-20B-Highといった特殊な大規模推論モデルよりも優れていることです。
Claude-Sonnet-4.5のような最先端のモデル(75.47%対76.11%)と競合し、モデルスケール全体にわたる脆弱性推論の新たな効率性を確立する。
関連論文リスト
- Pushing the Boundaries of Natural Reasoning: Interleaved Bonus from Formal-Logic Verification [49.506412445511934]
大きな言語モデル(LLM)は目覚ましい能力を示すが、その次は論理的不整合と報奨ハックを生み出す。
本稿では,自然言語生成プロセスと形式的記号的検証を動的にインターリーブする形式論理検証誘導フレームワークを提案する。
我々はこのフレームワークを,形式論理検証誘導制御による微調整とポリシー最適化の相乗効果を生かした,新しい2段階のトレーニングパイプラインを通じて運用する。
論文 参考訳(メタデータ) (2026-01-30T07:01:25Z) - EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs [9.412828452977553]
既存のアプローチは成功した推論パスを強化し、かなりのキャリブレーションコストを発生させる。
この失敗は、アライメントにおけるモデル崩壊の一形態として特徴づけられている。
推論性能とキャリブレーションを協調的に最適化する訓練目標として,EpiCaRを提案する。
論文 参考訳(メタデータ) (2026-01-11T06:21:13Z) - The Drill-Down and Fabricate Test (DDFT): A Protocol for Measuring Epistemic Robustness in Language Models [0.0]
現在の言語モデル評価は、理想的な条件下でモデルが知っていることを計測するが、現実的なストレス下でそれをどれだけ堅牢に知っているかは測定しない。
本稿では,ロバスト性を測定するプロトコルであるDrill-Down Fabricate Test (DDFT)を紹介する。
フラッグシップモデルはスケールにもかかわらず脆さを示すのに対して、小さなモデルは堅牢なパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2025-12-29T20:29:09Z) - Catch Me If You Can: How Smaller Reasoning Models Pretend to Reason with Mathematical Fidelity [15.774418410083515]
表面パターンマッチングと実際の数学的推論を区別する診断フレームワークを提案する。
我々は表面性能と推論忠実度の間に顕著な不一致を明らかにした。
私たちの診断では、従来の精度メトリクスには見えない推論の失敗を明らかにします。
論文 参考訳(メタデータ) (2025-11-29T16:47:01Z) - Causal Reasoning in Pieces: Modular In-Context Learning for Causal Discovery [6.72184534513047]
因果推論は依然として大きな言語モデルにとって根本的な課題である。
大規模言語モデルによる内部推論の最近の進歩は、関心を喚起している。
我々はOpenAIのo-seriesとDeepSeek-Rモデルファミリを用いたCorr2Causeベンチマークの因果発見について検討した。
論文 参考訳(メタデータ) (2025-07-31T12:10:27Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - CodeCrash: Exposing LLM Fragility to Misleading Natural Language in Code Reasoning [40.88253756147561]
私たちは、CruxEvalとLiveCodeBenchから1,279の質問が寄せられたストレステストフレームワークであるCodeCrashを紹介します。
モデルはしばしばNLキューをオーバーリライズすることで推論をショートカットし、出力予測タスクの平均的な性能劣化が23.2%になることがわかった。
チェーン・オブ・ソート(Chain-of-Thought)の推論でさえ、平均的なモデルでは、混乱と合理化のためにまだ13.8%の減少がある。
論文 参考訳(メタデータ) (2025-04-19T00:40:28Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。