論文の概要: MultiVer: Zero-Shot Multi-Agent Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2602.17875v1
- Date: Thu, 19 Feb 2026 22:20:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.170092
- Title: MultiVer: Zero-Shot Multi-Agent Vulnerability Detection
- Title(参考訳): MultiVer: ゼロショットマルチエージェント脆弱性検出
- Authors: Shreshth Rajan,
- Abstract要約: MultiVerは脆弱性検出のためのゼロショットマルチエージェントシステムであり、微調整なしで最先端のリコールを実現する。
組合投票による4人組のアンサンブルは、PyVulで82.7%のリコールを達成し、微調整のGPT-3.5(81.3%)を1.4ポイント上回った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MultiVer, a zero-shot multi-agent system for vulnerability detection that achieves state-of-the-art recall without fine-tuning. A four-agent ensemble (security, correctness, performance, style) with union voting achieves 82.7% recall on PyVul, exceeding fine-tuned GPT-3.5 (81.3%) by 1.4 percentage points -- the first zeroshot system to surpass fine-tuned performance on this benchmark. On SecurityEval, the same architecture achieves 91.7% detection rate, matching specialized systems. The recall improvement comes at a precision cost: 48.8% precision versus 63.9% for fine-tuned baselines, yielding 61.4% F1. Ablation experiments isolate component contributions: the multi-agent ensemble adds 17 percentage points recall over single-agent security analysis. These results demonstrate that for security applications where false negatives are costlier than false positives, zero-shot multi-agent ensembles can match and exceed fine-tuned models on the metric that matters most.
- Abstract(参考訳): 脆弱性検出のためのゼロショットマルチエージェントシステムであるMultiVerを提案する。
4人組のアンサンブル(セキュリティ、正確性、パフォーマンス、スタイル)とユニオン投票は82.7%をPyVulでリコールし、微調整のGPT-3.5(81.3%)を1.4ポイント上回った。
SecurityEvalでは、同じアーキテクチャが91.7%の検知率を獲得し、特殊なシステムと一致している。
精度は48.8%、微調整ベースラインは63.9%、F1は61.4%である。
マルチエージェントアンサンブルは、シングルエージェントセキュリティ分析よりも17パーセントのポイントをリコールする。
これらの結果は、偽陰性が偽陽性よりも高価であるセキュリティアプリケーションの場合、ゼロショットマルチエージェントアンサンブルは、最も重要なメトリック上の微調整されたモデルと一致し、超えることを示す。
関連論文リスト
- How well are open sourced AI-generated image detection models out-of-the-box: A comprehensive benchmark study [5.740397289924559]
普遍的な勝者は存在せず、検出器のランキングはかなり不安定である。
我々の発見は、全能検出器のパラダイムに挑戦した。
論文 参考訳(メタデータ) (2026-02-08T04:36:13Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Multi-Agent LLM Committees for Autonomous Software Beta Testing [0.0]
このフレームワークは、モデルの多様性、ペルソナ駆動の振る舞いの変化、視覚的ユーザインターフェイスの理解を組み合わせたものだ。
視覚対応エージェントは、ナビゲーションとレポートによってユーザインターフェース要素を100%成功させることに成功した。
このフレームワークは、CI/CDパイプラインにおけるLLMベースのソフトウェアテストの再現可能な研究と実践的な展開を可能にする。
論文 参考訳(メタデータ) (2025-12-21T02:06:53Z) - Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks [0.0]
Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
論文 参考訳(メタデータ) (2025-12-16T19:22:50Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Multi-Agent Code Verification with Compound Vulnerability Detection [0.0]
既存のツールはバグの65%しかキャッチできず、35%が偽陽性である。
CodeX-Verifyは4つの特殊なエージェントを使って異なるタイプのバグを検出するマルチエージェントシステムです。
論文 参考訳(メタデータ) (2025-11-20T03:40:27Z) - Let the Trial Begin: A Mock-Court Approach to Vulnerability Detection using LLM-Based Agents [10.378745306569053]
VulTrialは、自動脆弱性検出を強化するために設計された法廷インスパイアされたフレームワークである。
セキュリティ研究者、コード作者、モデレーター、レビューボードの4つの役割専門エージェントを雇用している。
GPT-3.5とGPT-4oを使用して、VulTrialはそれぞれのベースラインに対して102.39%、84.17%の性能を向上させる。
論文 参考訳(メタデータ) (2025-05-16T07:54:10Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。