論文の概要: Reentrancy Detection in the Age of LLMs
- arxiv url: http://arxiv.org/abs/2603.26497v1
- Date: Fri, 27 Mar 2026 15:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.559045
- Title: Reentrancy Detection in the Age of LLMs
- Title(参考訳): LLM時代の残留検知
- Authors: Dalila Ressi, Alvise Spanò, Matteo Rizzo, Lorenzo Benetollo, Sabina Rossi,
- Abstract要約: 永続性は、スマートコントラクトにおける最も重要な脆弱性のクラスのひとつです。
本稿では, ソリティ0.8+における残留度検出に対する信頼性指向の視点を採用する。
- 参考スコア(独自算出の注目度): 3.0292136896203483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reentrancy remains one of the most critical classes of vulnerabilities in Ethereum smart contracts, yet widely used detection tools and datasets continue to reflect outdated patterns and obsolete Solidity versions. This paper adopts a dependability-oriented perspective on reentrancy detection in Solidity 0.8+, assessing how reliably state-of-the-art static analyzers and AI-based techniques operate on modern code by putting them to the test on two fronts. We construct two manually verified benchmarks: an Aggregated Benchmark of 432 real-world contracts, consolidated and relabeled from prior datasets, and a Reentrancy Scenarios Dataset (RSD) of \chadded{143} handcrafted minimal working examples designed to isolate and stress-test individual reentrancy patterns. We then evaluate 12 formal-methods-based tools, 10 machine-learning models, and 9 large language models. On the Aggregated Benchmark, traditional tools and ML models achieve up to 0.87 F1, while the best LLMs reach 0.96 in a zero-shot setting. On the RSD, most tools fail on multiple scenarios, the top performer achieving an F1 of 0.76, whereas the strongest model attains 0.82. Overall, our results indicate that leading LLMs outperform the majority of existing detectors, highlighting concerning gaps in the robustness and maintainability of current reentrancy-analysis tools.
- Abstract(参考訳): Reentrancyは、Ethereumスマートコントラクトにおける最も重要な脆弱性のクラスのひとつだが、広く使用されている検出ツールとデータセットは、時代遅れのパターンと古いSolidityバージョンを反映し続けている。
本稿では,最新の静的アナライザとAIベースの技術が現代コード上でいかに確実に動作しているかを,二つの面でテストすることで評価する。
実世界の432の契約を集約し、以前のデータセットから統合・レバレッジしたAggregated Benchmarkと、Shachadded{143} 手作りのReentrancy Scenarios Dataset(RSD)という最小限の作業例を構築した。
次に、12のフォーマルなメソッドベースのツール、10の機械学習モデル、9の大規模言語モデルを評価します。
Aggregated Benchmarkでは、従来のツールとMLモデルは最大0.87 F1に達し、最高のLCMは0ショット設定で0.96に達する。
RSDでは、ほとんどのツールが複数のシナリオで失敗し、トップパフォーマーはF1が0.76、最強モデルは0.82である。
以上の結果から,LLMのリードは既存の検出器よりも優れており,現在のリエントリー分析ツールの堅牢性と保守性にギャップがあることが示唆された。
関連論文リスト
- How Reliable are Confidence Estimators for Large Reasoning Models? A Systematic Benchmark on High-Stakes Domains [7.845652284569666]
大規模推論モデルの誤校正は、高い領域における信頼性を損なう。
本稿では,6つの LRM から得られた347,496 個の推論トレースの公開リソースである Reasoning Model Confidence Estimation Benchmark (RMCB) を紹介する。
論文 参考訳(メタデータ) (2026-01-13T01:55:48Z) - ToolMind Technical Report: A Large-Scale, Reasoning-Enhanced Tool-Use Dataset [43.45582911794623]
我々は,160kの合成データインスタンスを備えた高品質なツールエージェントデータセットであるToolMindを紹介した。
我々は, 高精度なターンレベルのフィルタリングを用いて, 誤りや不適切なステップを除去する。
ToolMindで微調整されたモデルは、いくつかのベンチマークでベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-11-12T13:01:23Z) - GRETEL: A Goal-driven Retrieval and Execution-based Trial Framework for LLM Tool Selection Enhancing [6.790345342526922]
GRETELは、サンドボックス化された計画実行評価サイクルを通じてセマンティックに検索された候補を処理するエージェントワークフローを実装している。
ToolBenchベンチマークに関する包括的な評価は、すべてのメトリクスで大幅に改善されていることを示しています。
論文 参考訳(メタデータ) (2025-10-10T00:12:51Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - ZeroFalse: Improving Precision in Static Analysis with LLMs [0.1759008116536278]
静的アプリケーションセキュリティテスト(SAST)ツールは、現代のソフトウェア開発に不可欠なツールだが、その採用は過度の偽陽性によって損なわれている。
ZeroFalseは,大規模言語モデル(LLM)と静的解析を統合して,カバレッジを維持しながら偽陽性を減らすフレームワークである。
論文 参考訳(メタデータ) (2025-10-02T20:07:25Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - EVALOOOP: A Self-Consistency-Centered Framework for Assessing Large Language Model Robustness in Programming [8.52533297070733]
EVALOOOPは自己整合性の観点から堅牢性を評価するアセスメントフレームワークである。
MBPP Plusベンチマークで96の人気のある大言語モデル(LLM)を評価した。
EVALOOOPは10ループでパス@1の精度を2.65%-47.62%低下させる。
論文 参考訳(メタデータ) (2025-05-18T01:02:33Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。