論文の概要: Top Leaderboard Ranking = Top Coding Proficiency, Always? EvoEval: Evolving Coding Benchmarks via LLM
- arxiv url: http://arxiv.org/abs/2403.19114v1
- Date: Thu, 28 Mar 2024 03:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:22:41.350572
- Title: Top Leaderboard Ranking = Top Coding Proficiency, Always? EvoEval: Evolving Coding Benchmarks via LLM
- Title(参考訳): トップリーダーシップランキング = 最高コーディング能力、常に? EvoEval: LLMによるコーディングベンチマークの進化
- Authors: Chunqiu Steven Xia, Yinlin Deng, Lingming Zhang,
- Abstract要約: EvoEvalは、既存のベンチマークを異なるターゲットドメインに進化させたプログラム合成ベンチマークスイートである。
我々の研究では、HumanEvalのような標準ベンチマークで得られたハイパフォーマンスと比較して、パフォーマンスが大幅に低下していることが示されている。
本稿では,リワードや微妙な変化に遭遇した場合の命令追従モデルの脆さなど,様々な知見を紹介する。
- 参考スコア(独自算出の注目度): 13.324171480106715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs have become the go-to choice for code generation tasks, with an exponential increase in the training, development, and usage of LLMs specifically for code generation. To evaluate the ability of LLMs on code, both academic and industry practitioners rely on popular handcrafted benchmarks. However, prior benchmarks contain only a very limited set of problems, both in quantity and variety. Further, due to popularity and age, many benchmarks are prone to data leakage where example solutions can be readily found on the web and thus potentially in training data. Such limitations inevitably lead us to inquire: Is the leaderboard performance on existing benchmarks reliable and comprehensive enough to measure the program synthesis ability of LLMs? To address this, we introduce EvoEval -- a program synthesis benchmark suite created by evolving existing benchmarks into different targeted domains for a comprehensive evaluation of LLM coding abilities. Our study on 51 LLMs shows that compared to the high performance obtained on standard benchmarks like HumanEval, there is a significant drop in performance (on average 39.4%) when using EvoEval. Additionally, the decrease in performance can range from 19.6% to 47.7%, leading to drastic ranking changes amongst LLMs and showing potential overfitting of existing benchmarks. Furthermore, we showcase various insights, including the brittleness of instruction-following models when encountering rewording or subtle changes as well as the importance of learning problem composition and decomposition. EvoEval not only provides comprehensive benchmarks, but can be used to further evolve arbitrary problems to keep up with advances and the ever-changing landscape of LLMs for code. We have open-sourced our benchmarks, tools, and complete LLM generations at https://github.com/evo-eval/evoeval
- Abstract(参考訳): LLMは、コード生成に特化したLLMのトレーニング、開発、使用を指数関数的に増加させ、コード生成タスクの選択肢となりました。
コード上でのLLMの能力を評価するために、学術と産業の両方の実践者は、人気のある手作りベンチマークに依存している。
しかし、以前のベンチマークでは、量と多様性の両方において、非常に限られた問題しか含まない。
さらに、人気と年齢のため、多くのベンチマークはデータ漏洩を起こしやすい。
既存のベンチマークにおけるリーダーボードのパフォーマンスは、LCMのプログラム合成能力を測定するのに十分な信頼性と包括性を持っていますか?
この問題を解決するために,既存のベンチマークを異なる対象領域に進化させたプログラム合成ベンチマークスイートであるEvoEvalを導入し,LLM符号化能力を総合的に評価する。
我々は,HumanEvalなどの標準ベンチマークで得られた51 LLMに対して,EvoEvalを用いた場合,性能が著しく低下している(平均39.4%)ことを示す。
加えて、性能の低下は19.6%から47.7%にまで変化し、LCMの大幅なランキング変更と既存のベンチマークの過度な適合を示す結果となった。
さらに、リワードや微妙な変化に遭遇する際の指示追従モデルの脆さや、学習問題の構成と分解の重要性など、様々な知見を提示する。
EvoEvalは包括的なベンチマークを提供するだけでなく、任意の問題を進化させ、コードに対するLLMの進歩と変化し続ける状況に追従するためにも利用できる。
私たちはベンチマーク、ツール、そして完全なLCM世代をhttps://github.com/evo-eval/evoevalでオープンソース化しました。
関連論文リスト
- The RealHumanEval: Evaluating Large Language Models' Abilities to Support Programmers [44.28269395385471]
大規模言語モデル(LLM)を用いたコーディングにおいて,既存のベンチマークのゲインがプログラマの生産性向上に寄与するかどうかを検討する。
本稿では,プログラマを支援するためのLLMの能力を測定するためのWebインターフェースであるRealHumanEvalについて,オートコンプリートあるいはチャットサポートを通じて紹介する。
プログラマの好みは実際のパフォーマンスと相関せず、より優れた人間中心のプロキシ信号の必要性を動機付けている。
論文 参考訳(メタデータ) (2024-04-03T15:20:57Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - Evaluating Large Language Models with Runtime Behavior of Program Execution [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。
コード推論は、コードLLMの最も重要な能力の1つである。
本稿では,コードの推論能力とLLMの整合性を評価するためのフレームワークであるRevalを提案する。
論文 参考訳(メタデータ) (2024-03-25T05:37:16Z) - LiveCodeBench: Holistic and Contamination Free Evaluation of Large
Language Models for Code [35.05081512740494]
コードに対する大規模言語モデルの包括的で汚染のない評価手法であるLiveCodeBenchを提案する。
LiveCodeBenchは、LeetCode、AtCoder、CodeForcesという3つのコンペティションプラットフォーム間のコンテストから、時間とともに新たな問題を収集している。
本稿では, 汚染, 総合的な性能比較, 既存ベンチマークの過度なオーバーフィット, および個別モデル比較に関する実証的な知見を示す。
論文 参考訳(メタデータ) (2024-03-12T17:58:04Z) - InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiCoder-Evalは、コードのQAベンチマークである。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiCoder-Eval 上で 80 以上のコード LLM に対して,系統的な評価を行い,一連の知見を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - Evaluating Instruction-Tuned Large Language Models on Code Comprehension
and Generation [4.310519298899164]
本研究では,4つの代表的コード理解および生成タスクに対して,オープンソースのLLMを10個評価する。
ゼロショット設定では、命令されたLLMはコード理解と生成タスクに非常に競合する。
数ショット設定では,実演例の追加がLLMの性能向上に有効であることが判明した。
論文 参考訳(メタデータ) (2023-08-02T15:54:22Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of
Large Language Models for Code Generation [20.45045253933097]
LLM合成コードの機能的正しさを厳格に評価するコード合成評価フレームワークであるEvalPlusを提案する。
EvalPlusは、自動テスト入力ジェネレータによって新たに生成された大量のテストケースで、所定の評価データセットを拡張する。
我々は、HumanEval+が、これまで検出されていなかった大量の間違ったコードをキャッチできることを示します。
論文 参考訳(メタデータ) (2023-05-02T05:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。