論文の概要: CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models
- arxiv url: http://arxiv.org/abs/2309.01940v4
- Date: Mon, 11 Mar 2024 08:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 16:30:02.649576
- Title: CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models
- Title(参考訳): CodeApex: 大規模言語モデルのためのバイリンガルプログラミング評価ベンチマーク
- Authors: Lingyue Fu, Huacan Chai, Shuang Luo, Kounianhua Du, Weiming Zhang,
Longteng Fan, Jiayi Lei, Renting Rui, Jianghao Lin, Yuchen Fang, Yifan Liu,
Jingkuan Wang, Siyuan Qi, Kangning Zhang, Weinan Zhang, Yong Yu
- Abstract要約: 我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
- 参考スコア(独自算出の注目度): 43.655927559990616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the emergence of Large Language Models (LLMs), there has been a
significant improvement in the programming capabilities of models, attracting
growing attention from researchers. Evaluating the programming capabilities of
LLMs is crucial as it reflects the multifaceted abilities of LLMs, and it has
numerous downstream applications. In this paper, we propose CodeApex, a
bilingual benchmark dataset focusing on the programming comprehension, code
generation, and code correction abilities of LLMs. Programming comprehension
task tests LLMs on multiple-choice exam questions covering conceptual
understanding, commonsense reasoning, and multi-hop reasoning. The code
generation task evaluates LLMs through completing C++ functions based on
provided descriptions and prototypes. The code correction task asks LLMs to fix
real-world erroneous code segments with different error messages. We evaluate
12 widely used LLMs, including both general-purpose and specialized models.
GPT-4 exhibits the best programming capabilities, achieving approximate
accuracy of 69%, 54%, and 66% on the three tasks, respectively. Compared to
human performance, there is still significant room for improvement in LLM
programming. We hope that CodeApex can serve as a reference for evaluating the
coding capabilities of LLMs, further promoting their development and growth.
- Abstract(参考訳): 大規模言語モデル(llm)の出現により、モデルのプログラミング能力が大幅に改善され、研究者から注目を集めている。
LLMの多面的能力の反映として,LLMのプログラミング能力を評価することが重要である。
本稿では,LLMのプログラミング理解,コード生成,コード修正能力に着目した,バイリンガルなベンチマークデータセットであるCodeApexを提案する。
概念的理解、常識的推論、マルチホップ推論を含む多点検定質問に対するプログラミング理解タスクテスト LLM。
コード生成タスクは、提供された説明とプロトタイプに基づいてc++関数を完了することでllmを評価する。
コード修正タスクはllmsに、現実世界の誤ったコードセグメントを異なるエラーメッセージで修正するように要求する。
汎用モデルと特殊モデルの両方を含む12種類のLLMを評価した。
gpt-4は、最も優れたプログラミング能力を示し、3つのタスクで69%、54%、66%の近似精度を達成している。
人的パフォーマンスと比較しても、LLMプログラミングには大きな改善の余地がある。
CodeApex が LLM のコーディング能力を評価するリファレンスとして機能し,開発と成長をさらに促進できることを願っている。
関連論文リスト
- Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Source Code Summarization in the Era of Large Language Models [23.715005053430957]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。
本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文 参考訳(メタデータ) (2024-07-09T05:48:42Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - A Survey of Large Language Models for Code: Evolution, Benchmarking, and
Future Trends [30.774685501251817]
一般的な大規模言語モデル(LLM)は、ソフトウェア工学におけるコード生成のようなタスクにおいて大きな可能性を証明している。
コードLLMのかなりの部分は、モデルファインチューニングを通じて一般的なLLMから派生している。
現在、Code LLMとそのパフォーマンスに関する体系的な調査が欠如している。
論文 参考訳(メタデータ) (2023-11-17T07:55:16Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。