Fugu-MT 論文翻訳(概要): SolContractEval: A Benchmark for Evaluating Contract-Level Solidity Code Generation

論文の概要: SolContractEval: A Benchmark for Evaluating Contract-Level Solidity Code Generation

arxiv url: http://arxiv.org/abs/2509.23824v1
Date: Sun, 28 Sep 2025 11:53:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 22:32:19.470097
Title: SolContractEval: A Benchmark for Evaluating Contract-Level Solidity Code Generation
Title（参考訳）: SolContractEval: コントラクトレベルのソリデーティコード生成を評価するベンチマーク
Authors: Zhifan Ye, Jiachi Chen, Zhenzhe Shao, Lingfeng Bao, Xiaohu Yang, Zhongxin Liu,
Abstract要約: Solidityはスマートコントラクトの主要な言語です。既存の評価は、実世界の契約開発におけるモデルの能力を評価するに足りません。 SolContractEvalは、Solidityコード生成のための最初のコントラクトレベルのベンチマークです。
参考スコア（独自算出の注目度）: 17.116315125396696
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rise of blockchain has brought smart contracts into mainstream use, creating a demand for smart contract generation tools. While large language models (LLMs) excel at generating code in general-purpose languages, their effectiveness on Solidity, the primary language for smart contracts, remains underexplored. Solidity constitutes only a small portion of typical LLM training data and differs from general-purpose languages in its version-sensitive syntax and limited flexibility. These factors raise concerns about the reliability of existing LLMs for Solidity code generation. Critically, existing evaluations, focused on isolated functions and synthetic inputs, fall short of assessing models' capabilities in real-world contract development. To bridge this gap, we introduce SolContractEval, the first contract-level benchmark for Solidity code generation. It comprises 124 tasks drawn from real on-chain contracts across nine major domains. Each task input, consisting of complete context dependencies, a structured contract framework, and a concise task prompt, is independently annotated and cross-validated by experienced developers. To enable precise and automated evaluation of functional correctness, we also develop a dynamic evaluation framework based on historical transaction replay. Building on SolContractEval, we perform a systematic evaluation of six mainstream LLMs. We find that Claude-3.7-Sonnet achieves the highest overall performance, though evaluated models underperform relative to their capabilities on class-level generation tasks in general-purpose programming languages. Second, current models perform better on tasks that follow standard patterns but struggle with complex logic and inter-contract dependencies. Finally, they exhibit limited understanding of Solidity-specific features and contextual dependencies.
Abstract（参考訳）: ブロックチェーンの台頭は、スマートコントラクトを主流に利用し、スマートコントラクト生成ツールの需要を生み出している。大きな言語モデル(LLM)は汎用言語でコードを生成するのに優れていますが、スマートコントラクトの主要な言語であるソリデーティ(Solidity)に対する効果はいまだに未調査です。 Solidityは、典型的なLLMトレーニングデータのごく一部を構成するだけで、そのバージョンに敏感な構文と柔軟性に制限のある汎用言語とは異なる。これらの要因は、Solidityコード生成のための既存のLLMの信頼性に関する懸念を引き起こす。批判的に、独立した機能と合成入力に焦点を当てた既存の評価は、実世界の契約開発におけるモデルの能力を評価するには不十分である。このギャップを埋めるために、SolContractEvalを紹介します。SolContractEvalは、Solidityコード生成のための最初のコントラクトレベルのベンチマークです。 9つの主要なドメインにわたる実際のオンチェーン契約から引き出された124のタスクで構成されている。それぞれのタスク入力は、完全なコンテキスト依存、構造化されたコントラクトフレームワーク、簡潔なタスクプロンプトで構成され、経験豊富な開発者によって独立して注釈付けされ、相互検証されます。また,機能的正しさの正確かつ自動評価を可能にするために,履歴トランザクションの再生に基づく動的評価フレームワークを開発した。 SolContractEvalをベースとした6つのLLMの体系的評価を行う。 Claude-3.7-Sonnetは、汎用プログラミング言語におけるクラスレベルの生成タスクの能力と比較して性能が劣るが、全体的な性能は最高であることがわかった。第二に、現在のモデルは標準的なパターンに従っているが、複雑なロジックや契約間の依存関係に悩まされているタスクでより良く機能する。最後に、Solidity固有の機能とコンテキスト依存の限定的な理解を示す。

関連論文リスト

Beyond Code Similarity: Benchmarking the Plausibility, Efficiency, and Complexity of LLM-Generated Smart Contracts [3.3672086394822762]
LLMは実契約によく似た意味を持つコードを生成する。ゼロショット世代のうち20%から26%のみが、テスト中のゼロショット実装と同じ振る舞いをする。 Retrieval-Augmented Generationはパフォーマンスを大幅に向上し、機能的正しさを最大45%向上させる。
論文参考訳（メタデータ） (2025-11-20T10:47:59Z)
SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。 SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。 SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文参考訳（メタデータ） (2025-11-07T18:01:32Z)
Do Large Language Models Respect Contracts? Evaluating and Enforcing Contract-Adherence in Code Generation [11.445615378917578]
PACTは、プログラムアセスメントおよび契約順応評価フレームワークである。契約違反に焦点を当てた包括的なテストスーツコーパスを提供する。様々なプロンプト条件下でのコード生成の体系的解析を可能にする。
論文参考訳（メタデータ） (2025-10-14T01:12:37Z)
Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文参考訳（メタデータ） (2025-08-28T13:00:28Z)
Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes [33.80591142965565]
CODE2BENCHは、実世界のGitHubリポジトリから、堅牢で汚染に強いベンチマークを動的に構築するためのパイプラインである。特に、CODE2BENCHは、(1) トレーニングデータの汚染を最小限に抑えるために、最近のコードの周期的取り込みによって達成される自動ダイナミズム、(2) 依存レベルの制御されたベンチマークインスタンスへの関数の構造化可能なスコープグラフベースの依存性分析、(3) 厳密なテストスイートの自動合成のためのプロパティベーステスト(PBT)の3つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-08-10T05:06:36Z)
On LLM-Assisted Generation of Smart Contracts from Business Processes [0.08192907805418582]
大規模言語モデル(LLM)は、ソフトウェアの生成方法の現実を変えました。本稿では、ビジネスプロセス記述からスマートコントラクトコードを生成するためのLCMの使用について探索的研究を行う。以上の結果から,LLMの性能はスマートコントラクト開発に必要な信頼性に劣ることがわかった。
論文参考訳（メタデータ） (2025-07-30T20:39:45Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
SIMCOPILOT: Evaluating Large Language Models for Copilot-Style Code Generation [5.880496520248658]
SIMCOPILOTは、対話型"コパイロット"スタイルのコーディングアシスタントとして、大規模言語モデル(LLM)の役割をシミュレートするベンチマークである。ベンチマークには、Java(SIMCOPILOTJ)とPython用の専用のサブベンチマークが含まれている。
論文参考訳（メタデータ） (2025-05-21T04:59:44Z)
SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair [51.0686873716938]
コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介する。本稿では,スマートコントラクトの機能的正当性を検証するための検索拡張コード修復フレームワークを提案する。その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。
論文参考訳（メタデータ） (2025-03-03T01:55:20Z)
SolEval: Benchmarking Large Language Models for Repository-level Solidity Code Generation [25.50443346856231]
SolEvalはSolidityスマートコントラクト生成のための最初のリポジトリレベルのベンチマークです。既存のSolidityベンチマークとは異なり、SolEvalは複雑な関数呼び出しだけでなく、エコシステムの現実的な複雑さも反映している。
論文参考訳（メタデータ） (2025-02-26T03:58:31Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。