論文の概要: EvoCodeBench: An Evolving Code Generation Benchmark with Domain-Specific Evaluations
- arxiv url: http://arxiv.org/abs/2410.22821v1
- Date: Wed, 30 Oct 2024 08:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:29:11.150483
- Title: EvoCodeBench: An Evolving Code Generation Benchmark with Domain-Specific Evaluations
- Title(参考訳): EvoCodeBench: ドメイン特化評価を備えた進化的コード生成ベンチマーク
- Authors: Jia Li, Ge Li, Xuanming Zhang, Yunfei Zhao, Yihong Dong, Zhi Jin, Binhua Li, Fei Huang, Yongbin Li,
- Abstract要約: 既存のベンチマークには、データのリークとドメイン固有の評価の欠如という2つの制限がある。
EvoCodeBenchは、データ漏洩を避けるために、各期間(例:6ヶ月)に動的に更新される。
この記事では、25のリポジトリから275のサンプルを含む最初のバージョンであるEvoCodeBench-2403をリリースする。
- 参考スコア(独自算出の注目度): 87.34429475432998
- License:
- Abstract: How to evaluate Large Language Models (LLMs) in code generation remains an open question. Existing benchmarks have two limitations - data leakage and lack of domain-specific evaluation. The former hurts the fairness of benchmarks, and the latter hinders practitioners from selecting superior LLMs for specific programming domains. To address these two limitations, we propose a new benchmark - EvoCodeBench, which has the following advances: (1) Evolving data. EvoCodeBench will be dynamically updated every period (e.g., 6 months) to avoid data leakage. This paper releases the first version - EvoCodeBench-2403, containing 275 samples from 25 repositories. (2) A domain taxonomy and domain labels. Based on the statistics of open-source communities, we design a programming domain taxonomy consisting of 10 popular domains. Based on the taxonomy, we annotate each sample in EvoCodeBench with a domain label. (3) Domain-specific evaluations. Besides the Pass@k, we compute the Domain-Specific Improvement (DSI) and define LLMs' comfort and strange domains. These evaluations help practitioners select superior LLMs in specific domains and discover the shortcomings of existing LLMs. We evaluate 8 popular LLMs (e.g., gpt-4, DeepSeek Coder) on EvoCodeBench and summarize some insights. EvoCodeBench reveals the actual abilities of these LLMs in real-world repositories. For example, the highest Pass@1 of gpt-4 on EvoCodeBench-2403 is only 20.74%. Besides, we evaluate LLMs in different domains and discover their comfort and strange domains. For example, gpt-4 performs best in most domains but falls behind others in the Internet domain. StarCoder 2-15B unexpectedly performs well in the Database domain and even outperforms 33B LLMs. EvoCodeBench has been released.
- Abstract(参考訳): コード生成においてLLM(Large Language Models)をどのように評価するかは、未解決の問題である。
既存のベンチマークには、データのリークとドメイン固有の評価の欠如という2つの制限がある。
前者はベンチマークの公平性を損なうが、後者は特定のプログラミング領域において優れたLLMを選択するのを妨げる。
これら2つの制限に対処するため、新しいベンチマークであるEvoCodeBenchを提案する。
EvoCodeBenchは、データ漏洩を避けるために、周期(例:6ヶ月)毎に動的に更新される。
この記事では、25のリポジトリから275のサンプルを含む最初のバージョンであるEvoCodeBench-2403をリリースする。
2)ドメイン分類とドメインラベル。
オープンソースコミュニティの統計に基づいて、10の人気のあるドメインからなるプログラミングドメイン分類を設計する。
分類に基づいて、EvoCodeBenchの各サンプルにドメインラベルをアノテートする。
(3)ドメイン固有の評価。
Pass@kの他に、Domain-Specific Improvement (DSI) を計算し、LLMの快適さと奇妙なドメインを定義します。
これらの評価は、特定の領域において優れたLLMを選択し、既存のLLMの欠点を発見するのに役立つ。
我々はEvoCodeBench上で8つの人気のあるLCM(例: gpt-4, DeepSeek Coder)を評価し、いくつかの洞察を要約する。
EvoCodeBenchは、現実世界のリポジトリでこれらのLLMの実際の能力を明らかにする。
例えば、EvoCodeBench-2403のgpt-4の最高パス@1は20.74%である。
さらに,異なる領域のLSMを評価し,その快適さと奇妙な領域を発見する。
例えば、gpt-4は、ほとんどのドメインで最高に機能するが、インターネットドメインでは他のドメインに劣る。
StarCoder 2-15B はデータベース領域で予期せぬ性能を発揮し、33B LLMよりも優れていた。
EvoCodeBenchがリリースされた。
関連論文リスト
- DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation [48.11754113512047]
この研究には、コード生成ベンチマークデータセットであるDOMAINEVALが含まれており、6つの人気のあるドメインを含んでいる。
私たちのパイプラインは完全に自動化され、コードリポジトリから研究対象のフォーマットへのプッシュボットの構築が可能になります。
本研究のコントリビューションには、コード生成ベンチマークデータセットであるDOMAINEVAL、コードベンチマークを構築するための完全自動化パイプライン、DOMAINEVALのパフォーマンスに基づいたコード生成タスクにおけるLLMの制限の識別が含まれている。
論文 参考訳(メタデータ) (2024-08-23T16:33:58Z) - DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories [83.5195424237358]
既存のベンチマークは、現実世界のコードリポジトリと不整合である。
我々はDevEvalという新しいベンチマークを提案し、これは3つの進歩がある。
DevEvalは117のリポジトリから1,874のサンプルを持ち、10の人気のあるドメインをカバーする。
論文 参考訳(メタデータ) (2024-05-30T09:03:42Z) - EvoCodeBench: An Evolving Code Generation Benchmark Aligned with Real-World Code Repositories [42.257427142180546]
既存のベンチマークでは、実際のコードリポジトリとの整合性が低かった。
EvoCodeBenchは、データ漏洩を避けるための進化中のベンチマークである。
EvoCodeBenchに基づいて,リポジトリレベルのコード生成を提案し,人気の高い10の大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2024-03-31T08:10:50Z) - Top Leaderboard Ranking = Top Coding Proficiency, Always? EvoEval: Evolving Coding Benchmarks via LLM [13.324171480106715]
EvoEvalは、既存のベンチマークを異なるターゲットドメインに進化させたプログラム合成ベンチマークスイートである。
我々の研究では、HumanEvalのような標準ベンチマークで得られたハイパフォーマンスと比較して、パフォーマンスが大幅に低下していることが示されている。
本稿では,リワードや微妙な変化に遭遇した場合の命令追従モデルの脆さなど,様々な知見を紹介する。
論文 参考訳(メタデータ) (2024-03-28T03:10:39Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - On the Effectiveness of Large Language Models in Domain-Specific Code Generation [20.61882220430463]
ChatGPTのような大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。
コード生成プロセスにAPI知識を効果的に組み込む方法について検討する。
私たちはこれらの戦略を、DomCoderと呼ばれる新しいコード生成アプローチと呼んでいる。
論文 参考訳(メタデータ) (2023-12-04T05:41:02Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。