論文の概要: SolEval: Benchmarking Large Language Models for Repository-level Solidity Code Generation
- arxiv url: http://arxiv.org/abs/2502.18793v1
- Date: Wed, 26 Feb 2025 03:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:58:47.219445
- Title: SolEval: Benchmarking Large Language Models for Repository-level Solidity Code Generation
- Title(参考訳): SolEval: リポジトリレベルのソリデーティコード生成のための大規模言語モデルのベンチマーク
- Authors: Zhiyuan Peng, Xin Yin, Rui Qian, Peiqin Lin, Yongkang Liu, Chenhao Ying, Yuan Luo,
- Abstract要約: SolEvalはSolidityスマートコントラクト生成のための最初のリポジトリレベルのベンチマークです。
既存のSolidityベンチマークとは異なり、SolEvalは複雑な関数呼び出しだけでなく、現実世界の複雑さも反映している。
その結果、最高の性能のLSMは26.29%のPass@10しか達成せず、改善の余地があることが示されている。
- 参考スコア(独自算出の注目度): 20.36430282456073
- License:
- Abstract: Large language models (LLMs) have transformed code generation. However, most existing approaches focus on mainstream languages such as Python and Java, neglecting the Solidity language, the predominant programming language for Ethereum smart contracts. Due to the lack of adequate benchmarks for Solidity, LLMs' ability to generate secure, cost-effective smart contracts remains unexplored. To fill this gap, we construct SolEval, the first repository-level benchmark designed for Solidity smart contract generation, to evaluate the performance of LLMs on Solidity. SolEval consists of 1,125 samples from 9 different repositories, covering 6 popular domains, providing LLMs with a comprehensive evaluation benchmark. Unlike the existing Solidity benchmark, SolEval not only includes complex function calls but also reflects the real-world complexity of the Ethereum ecosystem by incorporating gas fee and vulnerability rate. We evaluate 10 LLMs on SolEval, and our results show that the best-performing LLM achieves only 26.29% Pass@10, highlighting substantial room for improvement in Solidity code generation by LLMs. We release our data and code at https://anonymous.4open.science/r/SolEval-1C06/.
- Abstract(参考訳): 大規模言語モデル (LLM) はコード生成を変換した。
しかし、既存のほとんどのアプローチは、Ethereumスマートコントラクトの主要なプログラミング言語であるSolidity言語を無視して、PythonやJavaなどの主流言語に焦点を当てている。
Solidityの適切なベンチマークが欠如しているため、LLMがセキュアで費用対効果の高いスマートコントラクトを生成する能力は、まだ探索されていない。
このギャップを埋めるため、SolEvalはSolidityスマートコントラクト生成用に設計された最初のリポジトリレベルのベンチマークであり、Solidity上でのLCMの性能を評価する。
SolEvalは9つのリポジトリから1,125のサンプルで構成され、6つの人気のあるドメインをカバーする。
既存のSolidityベンチマークとは異なり、SolEvalは複雑な関数呼び出しを含むだけでなく、ガス料金と脆弱性率を取り入れることでEthereumエコシステムの現実的な複雑さを反映している。
SolEval 上で 10 個の LLM を評価した結果,最高性能の LLM は 26.29% の Pass@10 しか達成できず,LLM によるソリデーティコード生成の大幅な改善の余地が浮き彫りにされている。
データとコードはhttps://anonymous.4open.science/r/SolEval-1C06/で公開しています。
関連論文リスト
- Escalating LLM-based Code Translation Benchmarking into the Class-level Era [20.22104136730419]
ClassEval-Tは、Large Language Models (LLM)向けのクラスレベルのコード変換ベンチマークである。
ClassEvalをベースに構築されたClassEval-Tは、JavaとC++に拡張され、完全なコードサンプルとテストスイートが提供される。
論文 参考訳(メタデータ) (2024-11-09T11:13:14Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories [83.5195424237358]
既存のベンチマークは、現実世界のコードリポジトリと不整合である。
我々はDevEvalという新しいベンチマークを提案し、これは3つの進歩がある。
DevEvalは117のリポジトリから1,874のサンプルを持ち、10の人気のあるドメインをカバーする。
論文 参考訳(メタデータ) (2024-05-30T09:03:42Z) - Top Leaderboard Ranking = Top Coding Proficiency, Always? EvoEval: Evolving Coding Benchmarks via LLM [13.324171480106715]
EvoEvalは、既存のベンチマークを異なるターゲットドメインに進化させたプログラム合成ベンチマークスイートである。
我々の研究では、HumanEvalのような標準ベンチマークで得られたハイパフォーマンスと比較して、パフォーマンスが大幅に低下していることが示されている。
本稿では,リワードや微妙な変化に遭遇した場合の命令追従モデルの脆さなど,様々な知見を紹介する。
論文 参考訳(メタデータ) (2024-03-28T03:10:39Z) - Teaching Machines to Code: Smart Contract Translation with LLMs [4.780973517287942]
本稿では、2つの異なる大規模言語モデル(LLM)を統一されたフレームワーク内でシナジーを利用する先駆的なアプローチを提案する。
このフレームワークは、コーディング原則を把握し、コードから馴染みのない言語への変換にこの理解を適用するように設計されています。
本研究では,人間の学習過程を模倣するLLMの能力について検討し,Solidityで記述されたスマートコントラクトをMoveに変換する手法の詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-13T18:55:20Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。