論文の概要: MAVUL: Multi-Agent Vulnerability Detection via Contextual Reasoning and Interactive Refinement
- arxiv url: http://arxiv.org/abs/2510.00317v1
- Date: Tue, 30 Sep 2025 22:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.274876
- Title: MAVUL: Multi-Agent Vulnerability Detection via Contextual Reasoning and Interactive Refinement
- Title(参考訳): MAVUL:コンテキスト推論とインタラクティブリファインメントによるマルチエージェント脆弱性検出
- Authors: Youpeng Li, Kartik Joshi, Xinda Wang, Eric Wong,
- Abstract要約: MAVULは、コンテキスト推論と対話的洗練を統合した、新しいマルチエージェント脆弱性検出システムである。
その結果,MAVULは従来のマルチエージェントシステムよりも62%以上の精度で,単エージェントシステムでは600%以上の性能で性能が優れていた。
- 参考スコア(独自算出の注目度): 9.377934769326416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread adoption of open-source software (OSS) necessitates the mitigation of vulnerability risks. Most vulnerability detection (VD) methods are limited by inadequate contextual understanding, restrictive single-round interactions, and coarse-grained evaluations, resulting in undesired model performance and biased evaluation results. To address these challenges, we propose MAVUL, a novel multi-agent VD system that integrates contextual reasoning and interactive refinement. Specifically, a vulnerability analyst agent is designed to flexibly leverage tool-using capabilities and contextual reasoning to achieve cross-procedural code understanding and effectively mine vulnerability patterns. Through iterative feedback and refined decision-making within cross-role agent interactions, the system achieves reliable reasoning and vulnerability prediction. Furthermore, MAVUL introduces multi-dimensional ground truth information for fine-grained evaluation, thereby enhancing evaluation accuracy and reliability. Extensive experiments conducted on a pairwise vulnerability dataset demonstrate MAVUL's superior performance. Our findings indicate that MAVUL significantly outperforms existing multi-agent systems with over 62% higher pairwise accuracy and single-agent systems with over 600% higher average performance. The system's effectiveness is markedly improved with increased communication rounds between the vulnerability analyst agent and the security architect agent, underscoring the importance of contextual reasoning in tracing vulnerability flows and the crucial feedback role. Additionally, the integrated evaluation agent serves as a critical, unbiased judge, ensuring a more accurate and reliable estimation of the system's real-world applicability by preventing misleading binary comparisons.
- Abstract(参考訳): オープンソースソフトウェア(OSS)の普及は、脆弱性のリスクを軽減する必要がある。
多くの脆弱性検出(VD)手法は、コンテキスト理解の不十分さ、単一ラウンドの制限、粗粒度評価によって制限されており、望ましくないモデル性能と偏りのある評価結果をもたらす。
これらの課題に対処するために、コンテキスト推論と対話的洗練を統合する新しいマルチエージェントVDシステムMAVULを提案する。
具体的には、脆弱性分析エージェントは、ツール使用能力とコンテキスト推論を柔軟に活用して、プロセス間のコード理解を実現し、脆弱性パターンを効果的にマイニングするように設計されている。
クロスロールエージェントインタラクションにおける反復的なフィードバックと洗練された意思決定を通じて、システムは信頼性の高い推論と脆弱性予測を実現する。
さらに、MAVULは、細粒度評価のための多次元グラウンド真理情報を導入し、評価精度と信頼性を向上させる。
ペアの脆弱性データセット上で実施された大規模な実験は、MAVULの優れたパフォーマンスを示している。
以上の結果から,MAVULは従来のマルチエージェントシステムよりも62%以上の精度で,単エージェントシステムの方が600%以上の性能で優れていた。
システムの有効性は、脆弱性分析エージェントとセキュリティアーキテクトエージェントとの間のコミュニケーションラウンドの増加によって著しく改善され、脆弱性フローのトレースにおけるコンテキスト推論の重要性と重要なフィードバックの役割が強調される。
さらに、統合評価エージェントは、批判的で偏見のない判断として機能し、誤ったバイナリ比較を防止して、システムの実世界の適用性をより正確で信頼性の高い評価を保証する。
関連論文リスト
- VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Structured Relevance Assessment for Robust Retrieval-Augmented Language Models [0.0]
本稿では,ALMのロバスト性を高める構造的妥当性評価フレームワークを提案する。
提案手法では,セマンティックマッチングとソース信頼性の両方を考慮した多次元スコアリングシステムを採用している。
予備評価では、幻覚率の大幅な低下と推論過程の透明性の向上が示されている。
論文 参考訳(メタデータ) (2025-07-28T19:20:04Z) - Improving vulnerability type prediction and line-level detection via adversarial training-based data augmentation and multi-task learning [10.375389754684905]
MTL(Multi-task Learning)とEDAT( Embedding-Layer-Driven Adversarial Training)を統合する統一的なアプローチを提案する。
提案手法は,VTP(Vulnerability Type Prediction)タスクとLVD(Line-level Vulnerability Detection)タスクの両方において,最先端のベースラインよりも優れている。
論文 参考訳(メタデータ) (2025-06-30T05:47:09Z) - Expert-in-the-Loop Systems with Cross-Domain and In-Domain Few-Shot Learning for Software Vulnerability Detection [38.083049237330826]
本研究では,CWE(Common Weaknessions)を用いたPythonコードの識別をシミュレーションすることにより,ソフトウェア脆弱性評価におけるLLM(Large Language Models)の利用について検討する。
その結果,ゼロショットプロンプトは性能が低いが,少数ショットプロンプトは分類性能を著しく向上させることがわかった。
モデル信頼性、解釈可能性、敵の堅牢性といった課題は、将来の研究にとって重要な領域のままである。
論文 参考訳(メタデータ) (2025-06-11T18:43:51Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Benchmarking LLMs and LLM-based Agents in Practical Vulnerability Detection for Code Repositories [8.583591493627276]
JitVulは、各関数をその脆弱性導入とコミットの修正にリンクする脆弱性検出ベンチマークである。
思考・行動・観察と相互言語的文脈を活用するReAct Agentsは,良性のあるコードと区別する上で,LLMよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-03-05T15:22:24Z) - Refining Input Guardrails: Enhancing LLM-as-a-Judge Efficiency Through Chain-of-Thought Fine-Tuning and Alignment [2.9775785740619254]
大きな言語モデル(LLM)は、会話型AI製品など、さまざまなアプリケーションで価値のある機能を示す。
悪意のあるユーザインタラクションに対する脆弱性を軽減することで、これらの製品のセキュリティと信頼性を確保することが最重要である。
入力モデレーションガードレールとして機能する異なるLDMの微調整およびCoT応答の調整の有効性について検討した。
論文 参考訳(メタデータ) (2025-01-22T18:40:57Z) - Free Lunch for Generating Effective Outlier Supervision [46.37464572099351]
本稿では, ほぼ現実的な外乱監視を実現するための超効率的な手法を提案する。
提案したtextttBayesAug は,従来の方式に比べて偽陽性率を 12.50% 以上削減する。
論文 参考訳(メタデータ) (2023-01-17T01:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。