論文の概要: Security Is Relative: Training-Free Vulnerability Detection via Multi-Agent Behavioral Contract Synthesis
- arxiv url: http://arxiv.org/abs/2604.19012v1
- Date: Tue, 21 Apr 2026 03:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.585219
- Title: Security Is Relative: Training-Free Vulnerability Detection via Multi-Agent Behavioral Contract Synthesis
- Title(参考訳): セキュリティは相対的:マルチエージェントな行動契約合成によるトレーニング不要な脆弱性検出
- Authors: Yongchao Wang, Zhiqiu Huang,
- Abstract要約: 脆弱性検出のためのトレーニング不要なマルチエージェントフレームワークであるPhoenixを提案する。
Phoenixは、検出をセマンティックスライダ、要求リバースエンジニア、契約審査員の3つのステージに分解する。
PrimeVul Pairedでは、Phoenix は F1 = 0.825 と Pair-Correct = 64.4% を獲得し、RASM-Vul (F1 = 0.668) と VulTrial (F1 = 0.563) を上回る。
- 参考スコア(独自算出の注目度): 14.657771106188115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning for vulnerability detection has shown promising results on early benchmarks, but recent evaluations reveal catastrophic degradation: models achieving F1 > 0.68 on legacy datasets collapse to 0.031 under strict deduplication. We identify the root cause as the semantic ambiguity problem: identical code can be secure or vulnerable depending on project-specific behavioral contracts, rendering global classification fundamentally inadequate. We propose Phoenix, a training-free multi-agent framework that resolves this ambiguity through Behavioral Contract Synthesis. Phoenix decomposes detection into three stages: a Semantic Slicer extracting minimal vulnerability-relevant context, a Requirement Reverse Engineer synthesizing Gherkin behavioral specifications encoding the security contract, and a Contract Judge evaluating code against these specifications via strict compliance checking. On PrimeVul Paired, Phoenix achieves F1 = 0.825 and Pair-Correct = 64.4%, surpassing RASM-Vul (F1 = 0.668) and VulTrial (F1 = 0.563) while using open-source models up to 48x smaller (7-14B vs. 671B). Ablation across 25 configurations demonstrates Gherkin specifications as the decisive driver (+0.09 to +0.35 F1). Error analysis reveals 18% of "False Positives" identify genuine security concerns in patched code, demonstrating that security is a relative property defined against behavioral contracts, not an absolute property of code syntax.
- Abstract(参考訳): 脆弱性検出のためのディープラーニングは、初期のベンチマークで有望な結果を示しているが、最近の評価では破滅的な劣化を示している。
我々は、根本原因を意味的あいまいさの問題として認識している: 同一のコードは、プロジェクト固有の行動契約によって安全または脆弱になり、グローバルな分類は基本的に不十分である。
我々は,このあいまいさを行動契約合成によって解決する学習自由なマルチエージェントフレームワークであるPhoenixを提案する。
Phoenixは検出を、最小限の脆弱性関連コンテキストを抽出するSemantic Slicer、セキュリティ契約をコードするGherkinの振る舞い仕様を合成するRequireement Reverse Engineer、厳格なコンプライアンスチェックを通じてこれらの仕様に対してコードを評価するContract Judgeの3つのステージに分解する。
PrimeVul Paired では、Phoenix は F1 = 0.825 と Pair-Correct = 64.4% を獲得し、RASM-Vul (F1 = 0.668) と VulTrial (F1 = 0.563) を上回り、オープンソースモデルを使用する。
25の構成にまたがるアブレーションは、Gherkin仕様を決定的なドライバ(+0.09から+0.35 F1)として示す。
の18%がパッチされたコードの真のセキュリティ上の懸念を特定しており、セキュリティはコードの構文の絶対的な性質ではなく、振る舞いの契約に対して定義された相対的な性質であることを実証している。
関連論文リスト
- Verify Before You Fix: Agentic Execution Grounding for Trustworthy Cross-Language Code Analysis [0.0]
ソフトウェア脆弱性分析のための言語横断的な脆弱性ライフサイクルフレームワークを構築します。
89.84-92.02%の言語内検出精度,74.43-80.12%のゼロショット言語F1。
これらの結果は,LLM駆動型エージェントAIのための原理的かつ実用的に展開可能なメカニズムであることを示す。
論文 参考訳(メタデータ) (2026-04-12T20:22:23Z) - Understanding NPM Malicious Package Detection: A Benchmark-Driven Empirical Analysis [10.599261033874884]
NPMエコシステムは、ソフトウェアサプライチェーン攻撃の主要なターゲットとなっている。
ベンチマークによるNPMマルウェア検出の実証分析を行う。
我々は、11の行動カテゴリと8の回避テクニックを付加した、6,420の悪意のある7,288の良性パッケージのデータセットを構築した。
論文 参考訳(メタデータ) (2026-03-29T07:04:31Z) - OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection [0.0]
本稿では,決定論的シミュレーションエンジンが基底真理を維持し,言語モデルが表面の散文のみを生成する検証可能な合成ベンチマークを提案する。
コーパスは51日の模擬日、2,904回のテレメトリ記録を96.4%のノイズレートで記録し、単面と単日のトリアージ戦略を破るために設計された4つの検出シナリオをカバーしている。
論文 参考訳(メタデータ) (2026-03-23T19:03:53Z) - SEAL-Tag: Self-Tag Evidence Aggregation with Probabilistic Circuits for PII-Safe Retrieval-Augmented Generation [36.47163805456756]
SEAL-Tagは個人識別可能な情報を保護するランタイム環境(PII)
SEAL-TagはSEAL-Probeプロトコルを導入し、監査を構造化されたツール使用操作に変換し、モデルがそのドラフトと共に検証可能なPII-Evidence Table(PET)を生成する。
プライバシ"コールドスタート"問題を克服するため,S0-S6アンコレッド合成パイプラインを導入し,高忠実で実証されたRAGインタラクションを生成する。
論文 参考訳(メタデータ) (2026-03-18T02:40:54Z) - CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks [48.54598003197356]
Mambaのような状態空間モデル(SSM)はトランスフォーマーの効率的な代替品として大きな注目を集めている。
HiSPAsは、最近発見された脆弱性で、敵対する文字列を通じてSSMメモリを破損させる。
この脅威に対して防御するためのCLASPモデルを紹介します。
論文 参考訳(メタデータ) (2026-03-12T17:29:55Z) - FLAMES: Fine-tuning LLMs to Synthesize Invariants for Smart Contract Security [41.836337574143535]
FLAMESは、ランタイムガードをSolidityの"require"ステートメントとして合成して、エクスプロイトに対するスマートコントラクトを強化する自動アプローチである。
FLAMESは、514,506の検証された契約から抽出された実世界の不変量について、中間層を教師する微調整によって訓練されたドメイン適応型大規模言語モデルを採用している。
論文 参考訳(メタデータ) (2025-10-24T12:44:08Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Towards Secure and Explainable Smart Contract Generation with Security-Aware Group Relative Policy Optimization [18.013438474903314]
本稿では,スマートコントラクト生成をセキュアかつ説明可能なフレームワークであるSmartCoder-R1を提案する。
我々は、人間のセキュリティ分析をエミュレートするためにモデルを訓練する。
SmartCoder-R1は、テクニックの新たな状態を確立し、5つの主要なメトリクスで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-12T03:14:50Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - Efficiently Detecting Reentrancy Vulnerabilities in Complex Smart Contracts [35.26195628798847]
既存の脆弱性検出ツールは、複雑なコントラクトにおける脆弱性の効率性や検出成功率の面では不十分である。
SliSEは、複雑なコントラクトに対するReentrancy脆弱性を検出する堅牢で効率的な方法を提供する。
論文 参考訳(メタデータ) (2024-03-17T16:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。