Fugu-MT 論文翻訳(概要): Benchmarking Zero-Shot Reasoning Approaches for Error Detection in Solidity Smart Contracts

論文の概要: Benchmarking Zero-Shot Reasoning Approaches for Error Detection in Solidity Smart Contracts

arxiv url: http://arxiv.org/abs/2603.13239v1
Date: Tue, 17 Feb 2026 18:08:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:42.219265
Title: Benchmarking Zero-Shot Reasoning Approaches for Error Detection in Solidity Smart Contracts
Title（参考訳）: スマートコントラクトにおける誤り検出のためのゼロショット推論手法のベンチマーク
Authors: Eduardo Sardenberg, Antonio José Grandson Busson, Daniel de Sousa Moraes, Sérgio Colcher,
Abstract要約: 本稿では,400契約のバランスデータセットを用いて,Solidityスマートコントラクト分析の最先端LCMについて検討する。モデルは、ゼロショット、ゼロショット・オブ・ソート(CoT)、ゼロショット・オブ・ソート(ToT)を含むゼロショット・プロンプト戦略を用いて評価される。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Smart contracts play a central role in blockchain systems by encoding financial and operational logic. Still, their susceptibility to subtle security flaws poses significant risks of financial loss and erosion of trust. LLMs create new opportunities for automating vulnerability detection, yet the effectiveness of different prompting strategies and model choices in real-world contexts remains uncertain. This paper evaluates state-of-the-art LLMs on Solidity smart contract analysis using a balanced dataset of 400 contracts under two tasks: (i) Error Detection, where the model performs binary classification to decide whether a contract is vulnerable, and (ii) Error Classification, where the model must assign the predicted issue to a specific vulnerability category. Models are evaluated using zero-shot prompting strategies, including zero-shot, zero-shot Chain-of-Thought (CoT), and zero-shot Tree-of-Thought (ToT). In the Error Detection task, CoT and ToT substantially increase recall (often approaching $\approx 95$--$99\%$), but typically reduce precision, indicating a more sensitive decision regime with more false positives. In the Error Classification task, Claude 3 Opus attains the best Weighted F1-score (90.8) under the ToT prompt, followed closely by its CoT.
Abstract（参考訳）: 金融と運用のロジックをコーディングすることで、スマートコントラクトはブロックチェーンシステムにおいて中心的な役割を果たす。それでも、その微妙なセキュリティ欠陥に対する感受性は、金銭的損失と信頼の侵食の重大なリスクを生じさせる。 LLMは、脆弱性検出を自動化するための新たな機会を生み出すが、現実の状況下で異なるプロンプト戦略とモデル選択の有効性は、まだ不明である。本稿では,400契約のバランスの取れたデータセットを2つのタスクで用いた,ソリッドシティのスマートコントラクト解析における最先端LCMの評価を行う。一契約が脆弱であるか否かを判断するために二分分類を行う誤検出 (ii) エラー分類では、予測された問題を特定の脆弱性カテゴリに割り当てなければならない。モデルはゼロショットプロンプト戦略を用いて評価され、ゼロショットチェイン・オブ・シート(CoT)、ゼロショットツリー・オブ・シート(ToT)などが含まれる。 Error Detectionタスクでは、CoTとToTはリコールを大幅に増加させる(しばしば$\approx 95$--99\%$に近づく)が、通常は精度を低下させ、より偽陽性のより繊細な決定規則を示す。エラー分類タスクでは、Claude 3 OpusはToTプロンプトの下で最高の重み付きF1スコア(90.8)を獲得し、CoTに近づいた。

関連論文リスト

LogicScan: An LLM-driven Framework for Detecting Business Logic Vulnerabilities in Smart Contracts [18.126385773266396]
スマートコントラクトにおけるビジネスロジックの脆弱性を検出するための,自動化されたコントラスト監査フレームワークであるLogicScanを提案する。 LogicScanの背景にある重要な洞察は、成熟した、広くデプロイされたオンチェーンプロトコルが、十分にテストされた、コンセンサス駆動のビジネス不変性を暗黙的にエンコードしていることです。 DeFiHacks、Web3Bugs、および上位200の監査済み契約を含む3つの実世界のデータセット上でLogicScanを評価する。
論文参考訳（メタデータ） (2026-02-03T08:56:53Z)
RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文参考訳（メタデータ） (2026-01-30T08:29:01Z)
SSR: Safeguarding Staking Rewards by Defining and Detecting Logical Defects in DeFi Staking [55.62033436283969]
DeFi(Decentralized Finance)の買収は、DeFiエコシステムにおける最も顕著なアプリケーションの1つだ。 DeFiの盗難の論理的欠陥により、攻撃者は不当な報酬を請求できる。我々は,DeFi取引契約における論理的欠陥を検出するための静的解析ツールであるSSR(Safeguarding Stake Reward)を開発した。
論文参考訳（メタデータ） (2026-01-09T15:01:41Z)
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文参考訳（メタデータ） (2025-09-25T13:04:29Z)
Generic Adversarial Smart Contract Detection with Semantics and Uncertainty-Aware LLM [18.01454017110476]
FinDetは、汎用的な敵対的スマートコントラクト検出フレームワークである。 EVM-バイトコードの契約のみを入力として取り、高いバランスの取れた精度で敵の契約を識別する。包括的評価の結果,FinDet の BAC は 0.9223 であり,TPR は 0.8950 であり,既存のベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2025-09-23T12:52:05Z)
VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文参考訳（メタデータ） (2025-09-15T02:25:38Z)
Enhancing Smart Contract Vulnerability Detection in DApps Leveraging Fine-Tuned LLM [0.7018579932647147]
分散アプリケーション(DApps)は、スマートコントラクトの脆弱性のため、重大なセキュリティリスクに直面します。本稿では,Large Language Models (LLM) を利用したスマートコントラクト脆弱性検出手法を提案する。
論文参考訳（メタデータ） (2025-04-07T12:32:14Z)
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文参考訳（メタデータ） (2025-04-07T03:57:41Z)
SmartLLM: Smart Contract Auditing using Custom Generative AI [0.0]
本稿では,LLaMA 3.1モデルにレトリーバル拡張生成(RAG)を応用した新しいアプローチであるSmartLLMを紹介する。 ERC標準からドメイン固有の知識を統合することで、SmartLLMはMythrilやSlitherのような静的解析ツールよりも優れたパフォーマンスを実現している。実験の結果、100%の完全なリコールと70%の精度スコアが示され、脆弱性の特定におけるモデルの堅牢性を強調した。
論文参考訳（メタデータ） (2025-02-17T06:22:05Z)
Improving Smart Contract Security with Contrastive Learning-based Vulnerability Detection [8.121484960948303]
スマートコントラクト脆弱性に対するコントラスト学習強化型自動認識手法であるClearを提案する。特にClearは、契約間のきめ細かい相関情報をキャプチャするために、対照的な学習(CL)モデルを採用している。その結果,既存のディープラーニング手法よりも9.73%-39.99%高いF1スコアが得られることがわかった。
論文参考訳（メタデータ） (2024-04-27T09:13:25Z)
ESCORT: Ethereum Smart COntRacTs Vulnerability Detection using Deep Neural Network and Transfer Learning [80.85273827468063]
既存の機械学習ベースの脆弱性検出方法は制限され、スマートコントラクトが脆弱かどうかのみ検査される。スマートコントラクトのための初のDeep Neural Network(DNN)ベースの脆弱性検出フレームワークであるESCORTを提案する。 ESCORTは6種類の脆弱性に対して平均95%のF1スコアを達成し,検出時間は契約あたり0.02秒であることを示す。
論文参考訳（メタデータ） (2021-03-23T15:04:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。