Fugu-MT 論文翻訳(概要): SolEval: Benchmarking Large Language Models for Repository-level Solidity Code Generation

論文の概要: SolEval: Benchmarking Large Language Models for Repository-level Solidity Code Generation

arxiv url: http://arxiv.org/abs/2502.18793v1
Date: Wed, 26 Feb 2025 03:58:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-27 15:24:46.370338
Title: SolEval: Benchmarking Large Language Models for Repository-level Solidity Code Generation
Title（参考訳）: SolEval: リポジトリレベルのソリデーティコード生成のための大規模言語モデルのベンチマーク
Authors: Zhiyuan Peng, Xin Yin, Rui Qian, Peiqin Lin, Yongkang Liu, Chenhao Ying, Yuan Luo,
Abstract要約: SolEvalはSolidityスマートコントラクト生成のための最初のリポジトリレベルのベンチマークです。既存のSolidityベンチマークとは異なり、SolEvalは複雑な関数呼び出しだけでなく、現実世界の複雑さも反映している。その結果、最高の性能のLSMは26.29%のPass@10しか達成せず、改善の余地があることが示されている。
参考スコア（独自算出の注目度）: 20.36430282456073
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have transformed code generation. However, most existing approaches focus on mainstream languages such as Python and Java, neglecting the Solidity language, the predominant programming language for Ethereum smart contracts. Due to the lack of adequate benchmarks for Solidity, LLMs' ability to generate secure, cost-effective smart contracts remains unexplored. To fill this gap, we construct SolEval, the first repository-level benchmark designed for Solidity smart contract generation, to evaluate the performance of LLMs on Solidity. SolEval consists of 1,125 samples from 9 different repositories, covering 6 popular domains, providing LLMs with a comprehensive evaluation benchmark. Unlike the existing Solidity benchmark, SolEval not only includes complex function calls but also reflects the real-world complexity of the Ethereum ecosystem by incorporating gas fee and vulnerability rate. We evaluate 10 LLMs on SolEval, and our results show that the best-performing LLM achieves only 26.29% Pass@10, highlighting substantial room for improvement in Solidity code generation by LLMs. We release our data and code at https://anonymous.4open.science/r/SolEval-1C06/.
Abstract（参考訳）: 大規模言語モデル (LLM) はコード生成を変換した。しかし、既存のほとんどのアプローチは、Ethereumスマートコントラクトの主要なプログラミング言語であるSolidity言語を無視して、PythonやJavaなどの主流言語に焦点を当てている。 Solidityの適切なベンチマークが欠如しているため、LLMがセキュアで費用対効果の高いスマートコントラクトを生成する能力は、まだ探索されていない。このギャップを埋めるため、SolEvalはSolidityスマートコントラクト生成用に設計された最初のリポジトリレベルのベンチマークであり、Solidity上でのLCMの性能を評価する。 SolEvalは9つのリポジトリから1,125のサンプルで構成され、6つの人気のあるドメインをカバーする。既存のSolidityベンチマークとは異なり、SolEvalは複雑な関数呼び出しを含むだけでなく、ガス料金と脆弱性率を取り入れることでEthereumエコシステムの現実的な複雑さを反映している。 SolEval 上で 10 個の LLM を評価した結果,最高性能の LLM は 26.29% の Pass@10 しか達成できず,LLM によるソリデーティコード生成の大幅な改善の余地が浮き彫りにされている。データとコードはhttps://anonymous.4open.science/r/SolEval-1C06/で公開しています。

関連論文リスト

On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair [51.0686873716938]
コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介する。本稿では,スマートコントラクトの機能的正当性を検証するための検索拡張コード修復フレームワークを提案する。その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。
論文参考訳（メタデータ） (2025-03-03T01:55:20Z)
Escalating LLM-based Code Translation Benchmarking into the Class-level Era [20.22104136730419]
ClassEval-Tは、Large Language Models (LLM)向けのクラスレベルのコード変換ベンチマークである。 ClassEvalをベースに構築されたClassEval-Tは、JavaとC++に拡張され、完全なコードサンプルとテストスイートが提供される。
論文参考訳（メタデータ） (2024-11-09T11:13:14Z)
Can Language Models Replace Programmers for Coding? REPOCOD Says 'Not Yet' [9.48622608877252]
大規模言語モデル(LLM)の機能を評価するために、多くのリポジトリレベルのコード生成ベンチマークが登場した。これらのベンチマークは、短い補完、合成例、または限られたスケールのリポジトリに焦点を当て、現実世界のコーディングタスクを表現できない。実世界の大規模プロジェクトで現実的な依存関係を持つ複雑なタスクを含むPythonコード生成ベンチマークであるREPOCODを作成します。
論文参考訳（メタデータ） (2024-10-29T01:21:05Z)
MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文参考訳（メタデータ） (2024-06-03T05:47:05Z)
DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories [83.5195424237358]
既存のベンチマークは、現実世界のコードリポジトリと不整合である。我々はDevEvalという新しいベンチマークを提案し、これは3つの進歩がある。 DevEvalは117のリポジトリから1,874のサンプルを持ち、10の人気のあるドメインをカバーする。
論文参考訳（メタデータ） (2024-05-30T09:03:42Z)
Top Leaderboard Ranking = Top Coding Proficiency, Always? EvoEval: Evolving Coding Benchmarks via LLM [13.324171480106715]
EvoEvalは、既存のベンチマークを異なるターゲットドメインに進化させたプログラム合成ベンチマークスイートである。我々の研究では、HumanEvalのような標準ベンチマークで得られたハイパフォーマンスと比較して、パフォーマンスが大幅に低下していることが示されている。本稿では,リワードや微妙な変化に遭遇した場合の命令追従モデルの脆さなど,様々な知見を紹介する。
論文参考訳（メタデータ） (2024-03-28T03:10:39Z)
Teaching Machines to Code: Smart Contract Translation with LLMs [4.780973517287942]
本稿では、2つの異なる大規模言語モデル(LLM)を統一されたフレームワーク内でシナジーを利用する先駆的なアプローチを提案する。このフレームワークは、コーディング原則を把握し、コードから馴染みのない言語への変換にこの理解を適用するように設計されています。本研究では,人間の学習過程を模倣するLLMの能力について検討し,Solidityで記述されたスマートコントラクトをMoveに変換する手法の詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-13T18:55:20Z)
OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文参考訳（メタデータ） (2024-02-21T04:42:41Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文参考訳（メタデータ） (2023-11-12T17:18:21Z)
Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文参考訳（メタデータ） (2023-04-19T06:00:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。