Fugu-MT 論文翻訳(概要): SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair

論文の概要: SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair

arxiv url: http://arxiv.org/abs/2503.01098v1
Date: Mon, 03 Mar 2025 01:55:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.77566
Title: SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair
Title（参考訳）: SolBench: ソリッドリティコードの補完と修復における機能的正確性評価のためのデータセットとベンチマーク
Authors: Zaoyu Chen, Haoran Qin, Nuo Chen, Xiangyu Zhao, Lei Xue, Xiapu Luo, Xiao-Ming Wu,
Abstract要約: コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介する。本稿では,スマートコントラクトの機能的正当性を検証するための検索拡張コード修復フレームワークを提案する。その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。
参考スコア（独自算出の注目度）: 51.0686873716938
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Smart contracts are crucial programs on blockchains, and their immutability post-deployment makes functional correctness vital. Despite progress in code completion models, benchmarks for Solidity, the primary smart contract language, are lacking. Existing metrics like BLEU do not adequately assess the functional correctness of generated smart contracts. To fill this gap, we introduce SolBench, a benchmark for evaluating the functional correctness of Solidity smart contracts generated by code completion models. SolBench includes 4,178 functions from 1,155 Ethereum-deployed contracts. Testing advanced models revealed challenges in generating correct code without context, as Solidity functions rely on context-defined variables and interfaces. To address this, we propose a Retrieval-Augmented Code Repair framework. In this framework, an executor verifies functional correctness, and if necessary, an LLM repairs the code using retrieved snippets informed by executor traces. We conduct a comprehensive evaluation of both closed-source and open-source LLMs across various model sizes and series to assess their performance in smart contract completion. The results show that code repair and retrieval techniques effectively enhance the correctness of smart contract completion while reducing computational costs.
Abstract（参考訳）: スマートコントラクトはブロックチェーン上で重要なプログラムであり、その不変性は機能的正しさを不可欠にします。コード補完モデルの進歩にもかかわらず、主要なスマートコントラクト言語であるSolidityのベンチマークには不足がある。 BLEUのような既存のメトリクスは、生成されたスマートコントラクトの機能的正しさを適切に評価しません。このギャップを埋めるために、コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介します。 SolBenchには1,155のEthereumデプロイ契約から4,178の関数が含まれている。高度なモデルをテストすることで、コンテキスト定義変数とインターフェースに依存するSolidity関数によって、コンテキストのない正しいコードを生成する上での課題が明らかになった。これを解決するために、我々はRetrieval-Augmented Code repair frameworkを提案する。このフレームワークでは、エグゼキュータが機能的正当性を検証し、必要なら、LLMはエグゼキュータトレースによって情報を得たスニペットを使用してコードを修復する。我々は,各種モデルサイズおよびシリーズのクローズドソースおよびオープンソースLLMの総合評価を行い,スマートコントラクト完了時の性能評価を行う。その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。

関連論文リスト

FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation [26.14778133391999]
FEA-Benchは、大規模な言語モデルがコードリポジトリ内でインクリメンタルな開発を行う能力を評価するために設計されたベンチマークである。 83のGitHubリポジトリからのプルリクエストを収集し、ルールベースとインテントベースのフィルタリングを使用して、新機能開発にフォーカスしたタスクインスタンスを構築します。
論文参考訳（メタデータ） (2025-03-09T16:11:57Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
ToolCoder: A Systematic Code-Empowered Tool Learning Framework for Large Language Models [49.04652315815501]
ツール学習は、大規模な言語モデル(LLM)にとって、外部ツールとのインタラクションを通じて、複雑な現実世界のタスクを解決する重要な機能として登場した。本稿では,ツール学習をコード生成タスクとして再編成する新しいフレームワークであるToolCoderを提案する。
論文参考訳（メタデータ） (2025-02-17T03:42:28Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
RepoMasterEval: Evaluating Code Completion via Real-World Repositories [12.176098357240095]
RepoMasterEvalは、現実のPythonとTypeScriptリポジトリから構築されたコード補完モデルを評価するための新しいベンチマークである。モデル生成コードのテスト精度を向上させるため,テストケースの有効性を測定するために突然変異試験を用いる。 6つの最先端モデルに対する実証的な評価は、テスト議論がベンチマークの精度向上に重要であることを示している。
論文参考訳（メタデータ） (2024-08-07T03:06:57Z)
On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文参考訳（メタデータ） (2024-06-17T10:45:22Z)
On the Limitations of Embedding Based Methods for Measuring Functional Correctness for Code Generation [4.065344017083881]
CodeBERTScoreのような埋め込みベースのメトリクスを使って、機能的正確性や編集作業などの有用な構造を計測する能力を分析します。その結果,機能的正当性(0.16)との相関は弱いものの,編集作業と強く相関している(0.72)ことがわかった。
論文参考訳（メタデータ） (2024-04-26T15:54:39Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。