論文の概要: Identifying and Characterizing Semantic Clones of Solidity Functions
- arxiv url: http://arxiv.org/abs/2604.26526v1
- Date: Wed, 29 Apr 2026 10:49:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.365847
- Title: Identifying and Characterizing Semantic Clones of Solidity Functions
- Title(参考訳): 固体関数の意味クローンの同定と特徴付け
- Authors: Ermanno Francesco Sannini, Francesco Salzano, Simone Scalabrino, Rocco Oliveto, Remo Pareschi, Corrado Aaron Visaggio, Andrea Di Sorbo,
- Abstract要約: コードとコメントを分析し,意味論的に等価なSolidity関数を見つけるためのスケーラブルな方法論を提示し,実証的に評価する。
以上の結果から,LLM生成要約とBERTのような文変換器を組み合わせることで,文書のギャップを埋めることが可能であることが示唆された。
この研究は、Solidityクローン検出の現代的なベンチマークを確立し、セキュアで効率的なコード代替品の自動発見の基礎を提供する。
- 参考スコア(独自算出の注目度): 4.407571766292332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smart Contracts are essential blockchain components, mainly written in Solidity. The high availability of public Solidity code leads to frequent reuse and high clone ratios. Since cloning can propagate vulnerabilities and flaws, effective detection is crucial. Although existing techniques work well in detecting syntactic clones, the identification of semantic clones is an open problem. To address this challenge, in this paper, we present and empirically assess a scalable methodology, based on analyzing code and comments, to spot semantically equivalent Solidity functions. We first collected an up-to-date dataset of about 300,000 Ethereum smart contracts, 82.07% of which are compliant with modern Solidity version 0.8. Manual validation of a statistically significant sample comprising 1,155 function pairs confirms the effectiveness of our solution, achieving an overall precision of 59% (rising to 84% for homonymous functions) and a recall of 97%. Besides, we explore the structural differences occurring on semantically equivalent Solidity functions, demonstrating that they often represent design alternatives focused on security choices, modularization, and gas optimization. Finally, we investigate the use of Large Language Models (LLMs) as documentation engines in scenarios where code comments are poor or absent. Our results show that LLM-generated summaries, combined with sentence transformers like BERT, can bridge the documentation gap, enabling the identification of semantic clones in uncommented code with 75% precision. This work establishes a modern benchmark for Solidity clone detection and provides a foundation for the automated discovery of secure and efficient code alternatives.
- Abstract(参考訳): スマートコントラクトは、主にSolidityで記述された、必須のブロックチェーンコンポーネントである。
公開Solidityコードの高可用性は、頻繁な再利用と高いクローン比をもたらす。
クローンは脆弱性や欠陥を伝播させるため、効果的な検出が不可欠である。
既存の手法は構文的クローンの検出には有効であるが、意味的クローンの同定はオープンな問題である。
この課題に対処するために、コードとコメントを分析してスケーラブルな方法論を実証的に評価し、意味論的に等価なSolidity関数を見つける。
私たちはまず、30,000のEthereumスマートコントラクトの最新のデータセットを収集しました。
1,155個の関数対からなる統計学的に有意なサンプルを手動で検証し,解法の有効性を確認し,全体の精度は59%(同名の関数は84%)で,リコール率は97%であった。
さらに、セマンティックに等価なSolidity関数で発生する構造的差異について検討し、セキュリティの選択、モジュール化、ガス最適化に重点を置いた設計代替案をしばしば示す。
最後に、コードコメントが不十分または欠落したシナリオにおいて、ドキュメントエンジンとしてのLLM(Large Language Models)の使用について検討する。
以上の結果から,LLM生成した要約とBERTのような文変換器を組み合わせることで,文書のギャップを埋めることができ,75%の精度で非圧縮コード中の意味的クローンを識別できることがわかった。
この研究は、Solidityクローン検出の現代的なベンチマークを確立し、セキュアで効率的なコード代替品の自動発見の基礎を提供する。
関連論文リスト
- AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。
このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文 参考訳(メタデータ) (2026-02-10T06:58:26Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - Beyond Code Similarity: Benchmarking the Plausibility, Efficiency, and Complexity of LLM-Generated Smart Contracts [3.3672086394822762]
LLMは実契約によく似た意味を持つコードを生成する。
ゼロショット世代のうち20%から26%のみが、テスト中のゼロショット実装と同じ振る舞いをする。
Retrieval-Augmented Generationはパフォーマンスを大幅に向上し、機能的正しさを最大45%向上させる。
論文 参考訳(メタデータ) (2025-11-20T10:47:59Z) - HyClone: Bridging LLM Understanding and Dynamic Execution for Semantic Code Clone Detection [3.2167919219391474]
コードクローン検出(Code clone detection)は、ソフトウェア工学において重要なタスクであり、ソフトウェアシステム内の重複や類似のコードフラグメントを識別することを目的としている。
大規模言語モデル(LLM)の最近の進歩は、コードセマンティクスの理解において有望であることを示している。
LLMに基づくスクリーニングと,Pythonプログラムのセマンティッククローンを検出するための実行ベースの検証を組み合わせた,新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-02T13:11:56Z) - VulCoCo: A Simple Yet Effective Method for Detecting Vulnerable Code Clones [11.650715913321076]
VulCoCoは、脆弱なコードクローンを検出する軽量でスケーラブルなアプローチである。
まず、様々なクローンタイプにまたがる合成ベンチマークを構築します。
我々の実験によると、VulCoCoは精度@kと平均精度(MAP)で最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-07-22T14:54:57Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair [51.0686873716938]
コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介する。
本稿では,スマートコントラクトの機能的正当性を検証するための検索拡張コード修復フレームワークを提案する。
その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-03-03T01:55:20Z) - Bridging the Gap Between End-to-End and Two-Step Text Spotting [88.14552991115207]
ブリッジングテキストスポッティングは、2段階のメソッドでエラーの蓄積と最適化性能の問題を解決する新しいアプローチである。
提案手法の有効性を広範囲な実験により実証する。
論文 参考訳(メタデータ) (2024-04-06T13:14:04Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。