論文の概要: Three Heads Are Better Than One: A Multi-perspective Reasoning Framework for Enhanced Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2605.18153v1
- Date: Mon, 18 May 2026 09:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.296737
- Title: Three Heads Are Better Than One: A Multi-perspective Reasoning Framework for Enhanced Vulnerability Detection
- Title(参考訳): マルチパースペクティブな推論フレームワークによる脆弱性検出
- Authors: Xin Peng, Bo Lin, Jing Wang, Xiaoling Li, Jun Ma, Jie Yu, Xiaoguang Mao, Shangwen Wang,
- Abstract要約: 本稿では,3種類のLLMエージェントの認知シナジーを利用した多視点推論フレームワークReasonVulを提案する。
フレームワークはソースコードの独立した分析から始まり、続いてコンフリクトを解決するための構造化された議論メカニズムが続く。
我々は542のコンフリクトケースを分析し、389が正しく解決されたことを発見し、隠れた脆弱性を明らかにするフレームワークの能力を強調した。
- 参考スコア(独自算出の注目度): 17.33447267029733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated vulnerability detection is crucial for enhancing software security by identifying potential flaws that attackers could exploit, thereby reducing the reliance on labor-intensive manual code audits. Recent advancements have shifted towards leveraging large language models (LLMs) for vulnerability detection, with techniques like Vul-RAG and VulnSage demonstrating progress through structured prompting and external knowledge integration. However, these approaches typically rely on a single reasoning paradigm, limiting their ability to address the complex and diverse nature of real-world vulnerabilities. To overcome these limitations, we propose ReasonVul, a novel multi-perspective reasoning framework that harnesses cognitive synergy among three specialized LLM agents, each embodying a distinct reasoning mode. The framework begins with independent analyses of the source code, followed by a structured debate mechanism to resolve conflicts through iterative rebuttal and revision, ultimately converging on a collaborative judgment. Evaluated on the PrimeVul dataset, ReasonVul achieves a PairAcc of 40.00% and an F1-score of 72.52%, surpassing the best baseline by 81.24% in PairAcc. Further tests on the JITVUL dataset confirm its generalizability, with a PairAcc of 28.67%. Additionally, we analyzed 542 conflict cases and found that 389 were correctly resolved, highlighting the framework's ability to uncover hidden vulnerabilities through the error-correction mechanism driven by the debate. This work emphasizes the importance of multi-perspective reasoning and collaborative validation in achieving robust and comprehensive vulnerability detection in real-world software systems.
- Abstract(参考訳): 自動脆弱性検出は、攻撃者が悪用する可能性のある潜在的な欠陥を特定し、労働集約的な手動コード監査への依存を減らすことで、ソフトウェアセキュリティを強化するために不可欠である。
Vul-RAGやVulnSageといったテクニックは、構造化プロンプトと外部知識の統合による進歩を示すものだ。
しかしながら、これらのアプローチは一般的に単一の推論パラダイムに依存し、現実世界の脆弱性の複雑で多様な性質に対処する能力を制限する。
これらの制約を克服するため、我々は3つの特殊なLLMエージェント間の認知シナジーを利用する新しい多視点推論フレームワークReasonVulを提案する。
フレームワークはソースコードの独立した分析から始まり、その後、反復的な反論と修正を通じて紛争を解決するための構造化された議論機構が続き、最終的には共同判断に収束する。
PrimeVulデータセットに基づいて評価され、ReasonVulはPairAccの40.00%、F1スコアの72.52%を達成した。
JITVULデータセットのさらなるテストは、その一般化可能性を確認し、PairAccは28.67%である。
さらに、542の競合事例を分析し、389が正しく解決されたことを発見し、議論によって引き起こされたエラー訂正メカニズムを通じて、隠れた脆弱性を発見できるフレームワークの能力を強調した。
この研究は、実世界のソフトウェアシステムにおいて、堅牢で包括的な脆弱性検出を実現する上で、多視点推論と協調検証の重要性を強調している。
関連論文リスト
- Co-RedTeam: Orchestrated Security Discovery and Exploitation with LLM Agents [57.49020237126194]
大規模言語モデル(LLM)はサイバーセキュリティタスクを支援することを約束しているが、既存のアプローチでは自動脆弱性発見とエクスプロイトに苦労している。
Co-RedTeamは,現実世界のレッドチームのミラーリングを目的とした,セキュリティを意識したマルチエージェントフレームワークである。
Co-RedTeamは、脆弱性分析をコーディネートされた発見およびエクスプロイトステージに分解し、エージェントがアクションを計画、実行、検証、洗練できるようにする。
論文 参考訳(メタデータ) (2026-02-02T14:38:45Z) - FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning [62.452350134196934]
FaithCoT-Benchは、インスタンスレベルのCoT不信検出のための統一ベンチマークである。
我々の枠組みは差別的な決定問題として不誠実検出を定式化している。
FaithCoT-Bench は LLM のより解釈可能で信頼性の高い推論に向けた将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-10-05T05:16:54Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - SAVANT: Vulnerability Detection in Application Dependencies through Semantic-Guided Reachability Analysis [6.989158266868967]
Java開発におけるオープンソースのサードパーティライブラリの依存関係の統合は、重大なセキュリティリスクをもたらす。
Savantは、セマンティックプリプロセッシングとLLMによるコンテキスト分析を組み合わせて、正確な脆弱性検出を行う。
Savantは83.8%の精度、73.8%のリコール、69.0%の精度、78.5%のF1スコアを達成し、最先端のSCAツールを上回っている。
論文 参考訳(メタデータ) (2025-06-21T19:48:13Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Code Change Intention, Development Artifact and History Vulnerability: Putting Them Together for Vulnerability Fix Detection by LLM [13.278153690972243]
VulFixMinerとCoLeFunDaは、開発アーティファクトから必須のコンテキストを無視して、コードの変更のみに焦点を当てている。
LLM4VFD(Large Language Models (LLMs)) とChain-of-Thought推論とIn-Context Learningを併用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-24T23:40:03Z) - VulEval: Towards Repository-Level Evaluation of Software Vulnerability Detection [14.312197590230994]
textbfVulEvalという名前のリポジトリレベルの評価システムは、プロセス間およびプロセス内脆弱性の検出性能を同時に評価することを目的としている。
VulEvalは大規模データセットで構成され、合計で4,196のCVEエントリ、232,239の関数、および対応する4,699のリポジトリレベルのソースコードがC/C++プログラミング言語に含まれる。
論文 参考訳(メタデータ) (2024-04-24T02:16:11Z) - Chain-of-Thought Prompting of Large Language Models for Discovering and Fixing Software Vulnerabilities [21.787125867708962]
大規模言語モデル(LLM)は、様々な領域において顕著な可能性を示している。
本稿では,LLMとチェーン・オブ・シント(CoT)を利用して,3つの重要なソフトウェア脆弱性解析タスクに対処する方法について検討する。
ベースラインよりもCoTにインスパイアされたプロンプトのかなりの優位性を示します。
論文 参考訳(メタデータ) (2024-02-27T05:48:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。