論文の概要: Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?
- arxiv url: http://arxiv.org/abs/2603.10795v1
- Date: Wed, 11 Mar 2026 14:07:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.983823
- Title: Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?
- Title(参考訳): EVMBenchの再評価: AIエージェントはスマートコントラクトセキュリティに対応しているか?
- Authors: Chaoyuan Peng, Lei Wu, Yajin Zhou,
- Abstract要約: EVMbenchは、スマートコントラクトセキュリティに関するAIエージェントのための最初の大規模なベンチマークである。
その成果は、完全に自動化されたAI監査が到達範囲内にあるという期待を後押しした。
これらの発見は、完全に自動化されたAI監査が差し迫っているという物語に挑戦する。
- 参考スコア(独自算出の注目度): 10.248746359119625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: EVMbench, released by OpenAI, Paradigm, and OtterSec, is the first large-scale benchmark for AI agents on smart contract security. Its results -- agents detect up to 45.6% of vulnerabilities and exploit 72.2% of a curated subset -- have fueled expectations that fully automated AI auditing is within reach. We identify two limitations: its narrow evaluation scope (14 agent configurations, most models tested on only their vendor scaffold) and its reliance on audit-contest data published before every model's release that models may have seen during training. To address these, we expand to 26 configurations across four model families and three scaffolds, and introduce a contamination-free dataset of 22 real-world security incidents postdating every model's release date. Our evaluation yields three findings: (1) agents' detection results are not stable, with rankings shifting across configurations, tasks, and datasets; (2) on real-world incidents, no agent succeeds at end-to-end exploitation across all 110 agent-incident pairs despite detecting up to 65% of vulnerabilities, contradicting EVMbench's conclusion that discovery is the primary bottleneck; and (3) scaffolding materially affects results, with an open-source scaffold outperforming vendor alternatives by up to 5 percentage points, yet EVMbench does not control for this. These findings challenge the narrative that fully automated AI auditing is imminent. Agents reliably catch well-known patterns and respond strongly to human-provided context, but cannot replace human judgment. For developers, agent scans serve as a pre-deployment check. For audit firms, agents are most effective within a human-in-the-loop workflow where AI handles breadth and human auditors contribute protocol-specific knowledge and adversarial reasoning. Code and data: https://github.com/blocksecteam/ReEVMBench/.
- Abstract(参考訳): OpenAI、Paradigm、OtterSecがリリースしたEVMbenchは、スマートコントラクトセキュリティに関するAIエージェントのための最初の大規模ベンチマークである。
エージェントは最大45.6%の脆弱性を検出し、キュレートされたサブセットの72.2%を悪用している。
その限定的な評価範囲(14のエージェント構成、ほとんどのモデルはベンダーの足場でのみテストされる)と、トレーニング中にモデルが見たであろうすべてのモデルのリリース前に公開された監査-テストデータへの依存です。
これらの問題を解決するために、4つのモデルファミリと3つの足場にわたる26の構成に拡張し、すべてのモデルのリリース日を延ばした22の現実世界のセキュリティインシデントによる汚染のないデータセットを導入しました。
評価の結果は,(1)エージェントの検出結果が安定せず,構成,タスク,データセットのランクが変動する,(2)現実のインシデントにおいて,最大65%の脆弱性を検出しながら,110のエージェントインシデントペアに対してエンドツーエンドのエクスプロイトを成功させるエージェントが存在しない,(3)発見が主要なボトルネックである,というEVMbenchの結論に反する,(3)足場が大きな影響を受け,オープンソースの足場がベンダーの代替品を最大5ポイント上回る,という,3つの結果を得た。
これらの発見は、完全に自動化されたAI監査が差し迫っているという物語に挑戦する。
エージェントはよく知られたパターンを確実に捉え、人間が提供する文脈に強く反応するが、人間の判断に取って代わることはできない。
開発者にとっては、エージェントスキャンはデプロイ前チェックとして機能する。
監査会社にとって、エージェントは、AIが広範囲を処理し、人間の監査官がプロトコル固有の知識と敵対的推論に貢献する、ループ内の人間ワークフローにおいて最も効果的である。
コードとデータ:https://github.com/blocksecteam/ReEVMBench/。
関連論文リスト
- AgentAssay: Token-Efficient Regression Testing for Non-Deterministic AI Agent Workflows [0.0]
AgentAssayは、非決定論的AIエージェントを回帰テストするための最初のトークン効率のよいフレームワークである。
厳密な統計保証を維持しながら78-100%のコスト削減を実現している。
論文 参考訳(メタデータ) (2026-03-03T04:59:25Z) - TestExplora: Benchmarking LLMs for Proactive Bug Discovery via Repository-Level Test Generation [19.43198506241428]
提案するTestExploraは,大規模言語モデルを積極的なテスタとして評価するためのベンチマークである。
TestExploraには482リポジトリから2,389のタスクが含まれており、すべての欠陥関連信号を隠している。
現状のモデルでは、F2P(Fail-to-Pass)の最大率は16.06%である。
論文 参考訳(メタデータ) (2026-02-11T03:22:51Z) - Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks [0.0]
Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
論文 参考訳(メタデータ) (2025-12-16T19:22:50Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。