論文の概要: Mercury: An Efficiency Benchmark for LLM Code Synthesis
- arxiv url: http://arxiv.org/abs/2402.07844v1
- Date: Mon, 12 Feb 2024 17:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 13:04:31.393617
- Title: Mercury: An Efficiency Benchmark for LLM Code Synthesis
- Title(参考訳): mercury: llmコード合成のための効率ベンチマーク
- Authors: Mingzhe Du, Anh Tuan Luu, Bin Ji, See-Kiong Ng
- Abstract要約: Mercuryは、Large Language Modelsコード合成タスクのコード効率を評価するために指定された最初のベンチマークである。
既存のベンチマークとは異なり、Mercuryは、正常化されたコード効率を測定するために、Beyond@Kという新しいメトリクスを統合している。
その結果,LLMは機能的に正しいコードを生成する能力を示すが,その効率性には大きなギャップがあることが判明した。
- 参考スコア(独自算出の注目度): 41.59643329735528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advancements in evaluating Large Language Models (LLMs) for code
synthesis, benchmarks have predominantly focused on functional correctness,
overlooking the importance of code efficiency. We present Mercury, the first
benchmark designated for assessing the code efficiency of LLM code synthesis
tasks. Mercury consists of 1,889 programming tasks covering diverse difficulty
levels alongside test case generators generating unlimited cases for
comprehensive evaluation. Unlike existing benchmarks, Mercury integrates a
novel metric Beyond@K to measure normalized code efficiency based on historical
submissions, leading to a new evaluation indicator for code synthesis, which
encourages generating functionally correct and computationally efficient code,
mirroring the real-world software development standard. Our findings reveal
that while LLMs demonstrate the remarkable capability to generate functionally
correct code, there still exists a substantial gap in their efficiency output,
underscoring a new frontier for LLM research and development.
- Abstract(参考訳): コード合成のためのLarge Language Models (LLM)の評価の進歩にもかかわらず、ベンチマークは主に機能的正確性に注目し、コード効率の重要性を見越している。
LLMコード合成タスクのコード効率を評価するために指定された最初のベンチマークであるMercuryを提示する。
mercuryは、さまざまな難易度レベルをカバーする1,889のプログラミングタスクと、包括的な評価のために無制限のケースを生成するテストケースジェネレータで構成されている。
既存のベンチマークとは異なり、MercuryはBeyond@Kという新しいメトリクスを統合して、過去の提案に基づいて正規化されたコード効率を測定する。
LLMは機能的に正しいコードを生成する能力を示すが、その効率性には大きなギャップがあり、LLM研究と開発のための新たなフロンティアが浮かび上がっている。
関連論文リスト
- Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - NoFunEval: Funny How Code LMs Falter on Requirements Beyond Functional
Correctness [11.26732084588476]
既存のコード言語モデルの評価ベンチマーク(コードLM)は、LMが機能的に正しいコードを生成することができるかどうかにのみ焦点を絞っている。
非機能要件と非機能要件の両方に対する単純な分類インスタンスに基づいて、コードLMを評価するため、新しいベンチマークNoFunEvalを提案する。
論文 参考訳(メタデータ) (2024-01-29T08:47:31Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - Generate and Pray: Using SALLMS to Evaluate the Security of LLM
Generated Code [0.7451457983372032]
大規模言語モデルによって生成されたコードが正しいだけでなく、脆弱性もないことを保証することが重要です。
LLM(Large Language Models)を評価するために使われる既存のデータセットは、セキュリティに敏感な真のソフトウェアエンジニアリングタスクを適切に表現していない。
生成されたコードのセキュリティを評価することに焦点を当てたベンチマークが明らかに欠落している。
論文 参考訳(メタデータ) (2023-11-01T22:46:31Z) - Benchmarking Causal Study to Interpret Large Language Models for Source
Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。
本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文 参考訳(メタデータ) (2023-08-23T20:32:12Z) - Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of
Large Language Models for Code Generation [20.45045253933097]
LLM合成コードの機能的正しさを厳格に評価するコード合成評価フレームワークであるEvalPlusを提案する。
EvalPlusは、自動テスト入力ジェネレータによって新たに生成された大量のテストケースで、所定の評価データセットを拡張する。
我々は、HumanEval+が、これまで検出されていなかった大量の間違ったコードをキャッチできることを示します。
論文 参考訳(メタデータ) (2023-05-02T05:46:48Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - CodeBLEU: a Method for Automatic Evaluation of Code Synthesis [57.87741831987889]
コード合成の分野では、一般的に使用される評価基準はBLEUまたは完全精度である。
我々はCodeBLEUと呼ばれる新しい自動評価指標を導入する。
n-gramマッチングにおけるBLEUの強度を吸収し、抽象構文木(AST)やデータフローによるコードセマンティクスを通じてコード構文を注入する。
論文 参考訳(メタデータ) (2020-09-22T03:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。