論文の概要: Strategic Heterogeneous Multi-Agent Architecture for Cost-Effective Code Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2604.21282v1
- Date: Thu, 23 Apr 2026 04:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.310062
- Title: Strategic Heterogeneous Multi-Agent Architecture for Cost-Effective Code Vulnerability Detection
- Title(参考訳): コスト効果コード脆弱性検出のための戦略的不均一なマルチエージェントアーキテクチャ
- Authors: Zhaohui Geoffrey Wang,
- Abstract要約: ゲーム理論の原理に着想を得た異種マルチエージェントアーキテクチャを提案する。
3+1"は、補完的な観点からコードを分析する3つのクラウドベースのエキスパートエージェントをデプロイする。
提案手法は,62.9%の精度で77.2%のF1スコアを獲得し,100%のリコールを0.002ドルとした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated code vulnerability detection is critical for software security, yet existing approaches face a fundamental trade-off between detection accuracy and computational cost. We propose a heterogeneous multi-agent architecture inspired by game-theoretic principles, combining cloud-based LLM experts with a local lightweight verifier. Our "3+1" architecture deploys three cloud-based expert agents (DeepSeek-V3) that analyze code from complementary perspectives - code structure, security patterns, and debugging logic - in parallel, while a local verifier (Qwen3-8B) performs adversarial validation at zero marginal cost. We formalize this design through a two-layer game framework: (1) a cooperative game among experts capturing super-additive value from diverse perspectives, and (2) an adversarial verification game modeling quality assurance incentives. Experiments on 262 real samples from the NIST Juliet Test Suite across 14 CWE types, with balanced vulnerable and benign classes, demonstrate that our approach achieves a 77.2% F1 score with 62.9% precision and 100% recall at $0.002 per sample - outperforming both a single-expert LLM baseline (F1 71.4%) and Cppcheck static analysis (MCC 0). The adversarial verifier significantly improves precision (+10.3 percentage points, p < 1e-6, McNemar's test) by filtering false positives, while parallel execution achieves a 3.0x speedup. Our work demonstrates that game-theoretic design principles can guide effective heterogeneous multi-agent architectures for cost-sensitive software engineering tasks.
- Abstract(参考訳): 自動コード脆弱性検出はソフトウェアセキュリティにとって不可欠だが、既存のアプローチでは、検出精度と計算コストの基本的なトレードオフに直面している。
我々は,クラウドベースのLLMエキスパートとローカル軽量検証器を組み合わせた,ゲーム理論の原理に着想を得た異種マルチエージェントアーキテクチャを提案する。
私たちの"3+1"アーキテクチャでは,補完的な視点 – コード構造,セキュリティパターン,デバッグロジック – からコードを分析する3つのクラウドベースのエキスパートエージェント(DeepSeek-V3)を並列にデプロイしています。
本デザインは,(1)多面的な視点から超付加価値を捉えた専門家同士の協調ゲーム,(2)品質保証インセンティブの検証ゲームである。
NIST Juliet Test Suiteの14のCWEタイプにわたる262個の実検体に対する実験により、我々のアプローチは77.2%のF1スコアを62.9%の精度で、100%リコールは0.002ドルの精度で達成し、シングルエキスパートLCMベースライン(F1 71.4%)とCppcheck静的解析(MCC 0)の両方を上回った。
逆検証器は偽陽性をフィルタリングすることで精度(+10.3ポイント、p < 1e-6、McNemarのテスト)を大幅に向上する一方、並列実行は3.0倍のスピードアップを達成する。
我々の研究は、ゲーム理論設計の原則が、コスト依存のソフトウェアエンジニアリングタスクに有効なヘテロジニアスなマルチエージェントアーキテクチャを導くことを実証している。
関連論文リスト
- Auto-ART: Structured Literature Synthesis and Automated Adversarial Robustness Testing [0.0]
我々は7つの補完プロトコルを用いて9つのピアレビューコーパスソースを分析した。
特定ギャップを運用するオープンソースのフレームワークであるAuto-ARTを紹介します。
RobustBenchの実証検証では、Auto-ARTの事前スクリーニングでは、フラグ付きケースの92%で勾配マスキングが特定されている。
論文 参考訳(メタデータ) (2026-04-22T15:46:11Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis [96.92417622318267]
ATBenchは、エージェント安全性の構造化、多様性、現実的な評価のための軌道レベルのベンチマークである。
リスクソース、障害モード、現実世界の危害の3つの側面に沿ってエージェント的リスクを編成する。
1000個の軌道(安全503個、安全497個)があり、平均9.01ターンと3.95kトークンがあり、2,084個のツールにまたがるプールから1,954個のツールが呼び出されている。
論文 参考訳(メタデータ) (2026-04-02T13:26:20Z) - AVDA: Autonomous Vibe Detection Authoring for Cybersecurity [0.1633272850273525]
AVDAは、モデルコンテキストプロトコル(MCP)を活用して、組織コンテキストをAI支援コード生成に統合することで検出を自動化するフレームワークである。
我々は,多種多様な生産検出コーパスと最先端LCMの3つのオーサリング戦略 – Baseline, Sequential, Agentic – を評価した。
その結果,エージェント品質の87%をトークンコストの40倍以下で達成できた。
論文 参考訳(メタデータ) (2026-03-26T21:52:33Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Ensembling Large Language Models for Code Vulnerability Detection: An Empirical Evaluation [69.8237598448941]
本研究では,ソースコードの脆弱性検出において,Large Language Models(LLM)の性能を高めるためのアンサンブル学習の可能性を検討する。
脆弱性検出に適したスタック機能であるDynamic Gated Stacking (DGS)を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:48:22Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - ORFuzz: Fuzzing the "Other Side" of LLM Safety -- Testing Over-Refusal [27.26251627767238]
大規模言語モデル(LLM)は、過度に保守的な安全対策のため、誤って良心的なクエリーを拒否する過度な拒絶を示す。
本稿では,LLMオーバーリフレクションの系統的検出と解析を行うための,最初の進化的テストフレームワークORFuzzを紹介する。
論文 参考訳(メタデータ) (2025-08-15T05:03:26Z) - MalCodeAI: Autonomous Vulnerability Detection and Remediation via Language Agnostic Code Reasoning [0.0]
MalCodeAIは、自律的なコードセキュリティ分析と修復のための言語に依存しないパイプラインである。
コード分解と意味推論をQwen2.5-Coder-3B-Instructモデルで組み合わせる。
MalCodeAIは、レッドハットスタイルのエクスプロイトトレース、CVSSベースのリスクスコアリング、ゼロショットの一般化をサポートし、複雑なゼロデイ脆弱性を検出する。
論文 参考訳(メタデータ) (2025-07-15T01:25:04Z) - MOS: Towards Effective Smart Contract Vulnerability Detection through Mixture-of-Experts Tuning of Large Language Models [16.16186929130931]
スマートコントラクトの脆弱性は、ブロックチェーンシステムに重大なセキュリティリスクをもたらす。
本稿では,大規模言語モデルのミックス・オブ・エキスパート・チューニング(MOE-Tuning)に基づくスマートコントラクト脆弱性検出フレームワークを提案する。
実験の結果、MOSはF1のスコアが6.32%、精度が4.80%の平均的な改善で既存の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-04-16T16:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。