Fugu-MT 論文翻訳(概要): Beyond Code Similarity: Benchmarking the Plausibility, Efficiency, and Complexity of LLM-Generated Smart Contracts

論文の概要: Beyond Code Similarity: Benchmarking the Plausibility, Efficiency, and Complexity of LLM-Generated Smart Contracts

arxiv url: http://arxiv.org/abs/2511.16224v1
Date: Thu, 20 Nov 2025 10:47:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-21 17:08:52.57867
Title: Beyond Code Similarity: Benchmarking the Plausibility, Efficiency, and Complexity of LLM-Generated Smart Contracts
Title（参考訳）: コードの類似性を超えて: LLM生成したスマートコントラクトの可塑性、効率、複雑さをベンチマークする
Authors: Francesco Salzano, Simone Scalabrino, Rocco Oliveto, Simone Scalabrino,
Abstract要約: LLMは実契約によく似た意味を持つコードを生成する。ゼロショット世代のうち20%から26%のみが、テスト中のゼロショット実装と同じ振る舞いをする。 Retrieval-Augmented Generationはパフォーマンスを大幅に向上し、機能的正しさを最大45%向上させる。
参考スコア（独自算出の注目度）: 5.050812959223413
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Smart Contracts are critical components of blockchain ecosystems, with Solidity as the dominant programming language. While LLMs excel at general-purpose code generation, the unique constraints of Smart Contracts, such as gas consumption, security, and determinism, raise open questions about the reliability of LLM-generated Solidity code. Existing studies lack a comprehensive evaluation of these critical functional and non-functional properties. We benchmark four state-of-the-art models under zero-shot and retrieval-augmented generation settings across 500 real-world functions. Our multi-faceted assessment employs code similarity metrics, semantic embeddings, automated test execution, gas profiling, and cognitive and cyclomatic complexity analysis. Results show that while LLMs produce code with high semantic similarity to real contracts, their functional correctness is low: only 20% to 26% of zero-shot generations behave identically to ground-truth implementations under testing. The generated code is consistently simpler, with significantly lower complexity and gas consumption, often due to omitted validation logic. Retrieval-Augmented Generation markedly improves performance, boosting functional correctness by up to 45% and yielding more concise and efficient code. Our findings reveal a significant gap between semantic similarity and functional plausibility in LLM-generated Smart Contracts. We conclude that while RAG is a powerful enhancer, achieving robust, production-ready code generation remains a substantial challenge, necessitating careful expert validation.
Abstract（参考訳）: スマートコントラクトはブロックチェーンエコシステムの重要なコンポーネントであり、Solidityが支配的なプログラミング言語である。 LLMは汎用コード生成に優れていますが、ガス消費、セキュリティ、決定論といったスマートコントラクトのユニークな制約は、LLM生成のソリデーティコードの信頼性に関するオープンな疑問を引き起こします。現存する研究は、これらの重要な機能的および非機能的特性の包括的な評価を欠いている。我々は,500個の実世界の関数に対してゼロショットおよび検索拡張された生成設定の下で,最先端の4つのモデルをベンチマークする。私たちの多面的評価では、コード類似度メトリクス、セマンティック埋め込み、自動テスト実行、ガスプロファイリング、認知的およびサイクロマティックな複雑性分析が採用されています。その結果、LLMは実契約によく似た意味を持つコードを生成するが、その機能的正確性は低い。生成されたコードは一貫してシンプルで、複雑性とガス消費量は大幅に小さく、多くの場合、省略された検証ロジックのためである。 Retrieval-Augmented Generationはパフォーマンスを著しく向上させ、機能的正しさを最大45%向上させ、より簡潔で効率的なコードを生成する。 LLM生成スマートコントラクトにおける意味的類似性と機能的可視性の間に有意な差が認められた。我々は、RAGは強力なエンハンサーであるが、堅牢でプロダクション対応のコード生成を実現することは、依然として重大な課題であり、慎重に専門家の検証を必要とすると結論付けている。

関連論文リスト

RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文参考訳（メタデータ） (2026-01-30T08:29:01Z)
SolContractEval: A Benchmark for Evaluating Contract-Level Solidity Code Generation [17.116315125396696]
Solidityはスマートコントラクトの主要な言語です。既存の評価は、実世界の契約開発におけるモデルの能力を評価するに足りません。 SolContractEvalは、Solidityコード生成のための最初のコントラクトレベルのベンチマークです。
論文参考訳（メタデータ） (2025-09-28T11:53:41Z)
A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文参考訳（メタデータ） (2025-08-25T15:11:11Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文参考訳（メタデータ） (2025-05-16T16:59:14Z)
Guiding LLM-based Smart Contract Generation with Finite State Machine [24.841721855191857]
有限状態機械(FSM)と大言語モデル(LLM)に基づくスマートコントラクト生成フレームワークであるFSM-SCGを提案する。最高のベースラインと比較して、FSM-SCGは生成したスマートコントラクトコードのコンパイル成功率を少なくとも48%改善し、平均脆弱性リスクスコアを約68%削減する。
論文参考訳（メタデータ） (2025-05-13T13:13:26Z)
Uncertainty-Guided Chain-of-Thought for Code Generation with LLMs [45.33160999781074]
大規模言語モデル(LLM)の問題解決能力向上に有効な手法として,チェーン・オブ・ソート(CoT)推論が実証されている。我々は、不確実性を認識したCoT推論機構を組み込むことで、コード生成を向上させるためのUnCert-CoTを導入する。
論文参考訳（メタデータ） (2025-03-19T15:40:45Z)
SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair [51.0686873716938]
コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介する。本稿では,スマートコントラクトの機能的正当性を検証するための検索拡張コード修復フレームワークを提案する。その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。
論文参考訳（メタデータ） (2025-03-03T01:55:20Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Mercury: A Code Efficiency Benchmark for Code Large Language Models [41.51235610016959]
我々は、Large Language Models for Code (Code LLMs)の最初のコード効率ベンチマークであるMercuryを提示する。 1,889のPythonタスクで構成され、それぞれに現実の効率のベースラインとして機能する適切なソリューションが伴っている。そこで我々は,機能的正当性とコード効率を同時に反映する,実行時毎のパススコアを計算する新たな指標Beyondを導入する。
論文参考訳（メタデータ） (2024-02-12T17:53:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。