論文の概要: EVMbench: Evaluating AI Agents on Smart Contract Security
- arxiv url: http://arxiv.org/abs/2603.04915v1
- Date: Thu, 05 Mar 2026 07:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.132302
- Title: EVMbench: Evaluating AI Agents on Smart Contract Security
- Title(参考訳): EVMbench: スマートコントラクトセキュリティにおけるAIエージェントの評価
- Authors: Justin Wang, Andreas Bigger, Xiaohai Xu, Justin W. Lin, Andy Applebaum, Tejal Patwardhan, Alpin Yukseloglu, Olivia Watkins,
- Abstract要約: EVMbenchは、スマートコントラクトの脆弱性を検出し、パッチを当て、悪用するエージェントの能力を測定する評価である。
さまざまなフロンティアエージェントを評価して、ライブブロックチェーンインスタンスに対するエンドツーエンドの脆弱性を発見し、悪用することが可能であることを確認します。
- 参考スコア(独自算出の注目度): 9.254733807577242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smart contracts on public blockchains now manage large amounts of value, and vulnerabilities in these systems can lead to substantial losses. As AI agents become more capable at reading, writing, and running code, it is natural to ask how well they can already navigate this landscape, both in ways that improve security and in ways that might increase risk. We introduce EVMbench, an evaluation that measures the ability of agents to detect, patch, and exploit smart contract vulnerabilities. EVMbench draws on 117 curated vulnerabilities from 40 repositories and, in the most realistic setting, uses programmatic grading based on tests and blockchain state under a local Ethereum execution environment. We evaluate a range of frontier agents and find that they are capable of discovering and exploiting vulnerabilities end-to-end against live blockchain instances. We release code, tasks, and tooling to support continued measurement of these capabilities and future work on security.
- Abstract(参考訳): パブリックブロックチェーン上のスマートコントラクトは、今や大量の価値を管理しており、これらのシステムの脆弱性は、かなりの損失をもたらす可能性がある。
AIエージェントがコードを読み、書き、実行しやすくなればなるほど、セキュリティを改善する方法とリスクを増大させる方法の両方において、この状況がいかにうまくナビゲートできるかを問うのは自然なことです。
EVMbenchは、スマートコントラクトの脆弱性を検出し、パッチを当て、悪用するエージェントの能力を測定する評価です。
EVMbenchは40のリポジトリから117のキュレートされた脆弱性を扱い、最も現実的な設定では、ローカルEthereum実行環境下でテストとブロックチェーン状態に基づいてプログラム的なグレードを使用する。
さまざまなフロンティアエージェントを評価して、ライブブロックチェーンインスタンスに対して、エンドツーエンドの脆弱性を発見して悪用することが可能であることを確認します。
コード、タスク、ツーリングをリリースして、これらの機能の継続的な測定とセキュリティに関する今後の作業をサポートします。
関連論文リスト
- OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows [77.95511352806261]
VLM(Vision-Language Models)を利用したコンピュータ利用エージェントは、モバイルプラットフォームのようなデジタル環境を操作する上で、人間のような能力を実証している。
我々は,明示的なシステムレベルの違反を検出するための形式検証器と,文脈的リスクとエージェント行動を評価するコンテキスト判断器を組み合わせた,新しいハイブリッド安全検出フレームワークOS-Sentinelを提案する。
論文 参考訳(メタデータ) (2025-10-28T13:22:39Z) - RedCodeAgent: Automatic Red-teaming Agent against Diverse Code Agents [70.24175620901538]
コードエージェントは、強力なコード生成機能とコードインタプリタとの統合により、広く採用されている。
現在の静的安全性ベンチマークとレッドチームツールは、出現する現実世界のリスクシナリオを特定するのに不十分である。
我々はRedCodeAgentを提案する。RedCodeAgentは、多様なコードエージェントの脆弱性を体系的に発見するように設計された、最初の自動リピートエージェントである。
論文 参考訳(メタデータ) (2025-10-02T22:59:06Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - Ai-Driven Vulnerability Analysis in Smart Contracts: Trends, Challenges and Future Directions [0.2797210504706914]
数値オーバーフロー、再侵入攻撃、不正アクセス許可などの脆弱性は、数百万ドルの損失をもたらしている。
従来のスマートコントラクト監査技術は、拡張性、自動化、開発パターンの進化への適応性の制限に直面しています。
本稿では、機械学習、ディープラーニング、グラフニューラルネットワーク、トランスフォーマーベースモデルに焦点をあて、スマートコントラクトにおける脆弱性検出のための新しいAI駆動技術について検討する。
論文 参考訳(メタデータ) (2025-06-07T09:44:26Z) - A Comprehensive Study of Exploitable Patterns in Smart Contracts: From Vulnerability to Defense [1.1138859624936408]
スマートコントラクト内の脆弱性は、個々のアプリケーションのセキュリティを損なうだけでなく、より広範なブロックチェーンエコシステムに重大なリスクをもたらす。
本稿では,スマートコントラクトの重要なセキュリティリスク,特にSolidityで記述され,仮想マシン上で実行されるセキュリティリスクを包括的に分析する。
攻撃シナリオを複製し、効果的な対策を評価することにより、2つの一般的かつ重要なタイプ(冗長性と整数オーバーフロー)に焦点を当てる。
論文 参考訳(メタデータ) (2025-04-30T10:00:36Z) - Insecurity Through Obscurity: Veiled Vulnerabilities in Closed-Source Contracts [11.609699771118116]
本稿では、クローズドソースおよび難読化コントラクトに適した新しいバイトコード解析ツールであるSKANFを紹介する。
SKANFは、コントロールフローの難読化、シンボリック実行、そして過去のトランザクションに基づくコンコリック実行を組み合わせて、資産管理の脆弱性を特定して活用する。
実世界の最大抽出値(MEV)ボットの評価では、SKANFが1,030の契約で脆弱性を検出し、394件のエクスプロイトをうまく生成し、潜在的な損失は106万ドルであることがわかった。
論文 参考訳(メタデータ) (2025-04-18T01:22:58Z) - Vulnerability anti-patterns in Solidity: Increasing smart contracts security by reducing false alarms [0.0]
我々は、現在の分析の統合と拡張が実現可能なだけでなく、スマートコントラクトセキュリティにおける次の論理的なステップであることを示す。
開発者中心の脆弱性の概念から,Solidityコードの形態と動的性に関する軽量な静的チェックを提案する。
論文 参考訳(メタデータ) (2024-10-22T17:21:28Z) - An Automated Vulnerability Detection Framework for Smart Contracts [18.758795474791427]
ブロックチェーン上のスマートコントラクトの脆弱性を自動的に検出するフレームワークを提案する。
具体的には、まず、スマートコントラクトのバイトコードから新しい特徴ベクトル生成技術を利用する。
次に、収集したベクトルを新しいメトリック学習ベースディープニューラルネットワーク(DNN)に入力し、検出結果を得る。
論文 参考訳(メタデータ) (2023-01-20T23:16:04Z) - ESCORT: Ethereum Smart COntRacTs Vulnerability Detection using Deep
Neural Network and Transfer Learning [80.85273827468063]
既存の機械学習ベースの脆弱性検出方法は制限され、スマートコントラクトが脆弱かどうかのみ検査される。
スマートコントラクトのための初のDeep Neural Network(DNN)ベースの脆弱性検出フレームワークであるESCORTを提案する。
ESCORTは6種類の脆弱性に対して平均95%のF1スコアを達成し,検出時間は契約あたり0.02秒であることを示す。
論文 参考訳(メタデータ) (2021-03-23T15:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。