Fugu-MT 論文翻訳(概要): SmartPoC: Generating Executable and Validated PoCs for Smart Contract Bug Reports

論文の概要: SmartPoC: Generating Executable and Validated PoCs for Smart Contract Bug Reports

arxiv url: http://arxiv.org/abs/2511.12993v1
Date: Mon, 17 Nov 2025 05:37:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-18 14:36:24.688052
Title: SmartPoC: Generating Executable and Validated PoCs for Smart Contract Bug Reports
Title（参考訳）: SmartPoC: スマートコントラクトバグレポートのための実行可能および検証可能なPoCの生成
Authors: Longfei Chen, Ruibin Yan, Taiyu Wong, Yiyang Chen, Chao Zhang,
Abstract要約: SmartPoCは、テキスト監査レポートを検証済みのテストケースに変換する自動フレームワークである。 SmartPoCは545件の監査結果のうち236件の実際のバグを1件当たり0.03ドルで確認している。
参考スコア（独自算出の注目度）: 12.959714248490506
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Smart contracts are prone to vulnerabilities and are analyzed by experts as well as automated systems, such as static analysis and AI-assisted solutions. However, audit artifacts are heterogeneous and often lack reproducible, executable PoC tests suitable for automated validation, leading to costly, ad hoc manual verification. Large language models (LLMs) can be leveraged to turn audit reports into PoC test cases, but have three major challenges: noisy inputs, hallucinations, and missing runtime oracles. In this paper, we present SmartPoC, an automated framework that converts textual audit reports into executable, validated test cases. First, the input audit report is processed to reduce noise, and only bug-related functions are extracted and fed to LLMs as context. To curb hallucinations and ensure compile-and-run readiness, we leverage LLMs to synthesize PoC test cases with specially-designed pre-/post-execution repair. We further utilize differential verification as oracles to confirm exploitability of the PoC test cases. On the SmartBugs-Vul and FORGE-Vul benchmarks, SmartPoC generates executable, validated Foundry test cases for 85.61% and 86.45% of targets, respectively. Applied to the latest Etherscan verified-source corpus, SmartPoC confirms 236 real bugs out of 545 audit findings at a cost of only $0.03 per finding.
Abstract（参考訳）: スマートコントラクトは脆弱性になりがちで、静的分析やAI支援ソリューションなど、専門家や自動化システムによって分析される。しかし、監査アーティファクトは不均一であり、しばしば再現可能な、自動検証に適したPoCテストができないため、コストがかかるアドホックな手動検証に繋がる。大規模な言語モデル(LLM)は、監査レポートをPoCテストケースに変換するために利用することができるが、ノイズの多い入力、幻覚、実行時オラクルの欠如という3つの大きな課題がある。本稿では,テキスト監査レポートを実行可能な検証テストケースに変換する自動フレームワークSmartPoCを提案する。まず、入力監査レポートを処理してノイズを低減し、バグ関連関数のみを抽出し、文脈としてLLMに供給する。幻覚を抑え,コンパイルと実行の可読性を確保するため,特殊に設計されたプリ・ポスト・エグゼクティブ・修復を用いて,LLMを用いてPoCテストケースを合成する。さらに,PoCテストケースの有効性を確認するために,オラクルとして差分検証を利用する。 SmartBugs-VulベンチマークとFOGE-Vulベンチマークでは、SmartPoCはそれぞれ85.61%と86.45%のターゲットで実行可能な、検証済みのFoundryテストケースを生成する。最新のEtherscan検証オープンソースコーパスに適用されたSmartPoCでは,545の監査結果のうち236の実際のバグを,1件当たり0.03ドルというコストで確認している。

関連論文リスト

PoCo: Agentic Proof-of-Concept Exploit Generation for Smart Contracts [4.837987507203078]
本稿では,概念実証を自動生成するエージェントフレームワークPOCOを紹介する。 PoCOは、Reason-Act-Observeループ内の一連のコード実行ツールと対話することで、エージェント的な方法でエクスプロイトを生成する。実世界の脆弱性報告23件のデータセットを用いてPOCOを評価した。
論文参考訳（メタデータ） (2025-11-04T18:03:12Z)
ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文参考訳（メタデータ） (2025-10-23T06:58:32Z)
Validating Solidity Code Defects using Symbolic and Concrete Execution powered by Large Language Models [0.0]
本稿では,Slither-based detectors, Large Language Models (LLMs), Kontrol, Forgeを統合した新しい検出パイプラインを提案する。私たちのアプローチは、欠陥を確実に検出し、証明を生成するように設計されています。
論文参考訳（メタデータ） (2025-09-16T12:46:11Z)
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文参考訳（メタデータ） (2025-04-07T03:57:41Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
RepoAudit: An Autonomous LLM-Agent for Repository-Level Code Auditing [8.846583362353169]
RepoAuditは、自律的なリポジトリレベルのコード監査エージェントである。 78.43%の精度で、15の現実世界のベンチマークプロジェクトにおいて40の真のバグを検出する。また、著名なプロジェクトの185の新たなバグを検出し、そのうち174が確認または修正されている。
論文参考訳（メタデータ） (2025-01-30T05:56:30Z)
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。 GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文参考訳（メタデータ） (2024-02-23T10:02:01Z)
Automatic Generation of Test Cases based on Bug Reports: a Feasibility Study with Large Language Models [4.318319522015101]
既存のアプローチは、単純なテスト(例えば単体テスト)や正確な仕様を必要とするテストケースを生成する。ほとんどのテスト手順は、テストスイートを形成するために人間が書いたテストケースに依存しています。大規模言語モデル(LLM)を活用し,バグレポートを入力として利用することにより,この生成の実現可能性を検討する。
論文参考訳（メタデータ） (2023-10-10T05:30:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。