論文の概要: CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models
- arxiv url: http://arxiv.org/abs/2309.01940v4
- Date: Mon, 11 Mar 2024 08:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 16:30:02.649576
- Title: CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models
- Title(参考訳): CodeApex: 大規模言語モデルのためのバイリンガルプログラミング評価ベンチマーク
- Authors: Lingyue Fu, Huacan Chai, Shuang Luo, Kounianhua Du, Weiming Zhang,
Longteng Fan, Jiayi Lei, Renting Rui, Jianghao Lin, Yuchen Fang, Yifan Liu,
Jingkuan Wang, Siyuan Qi, Kangning Zhang, Weinan Zhang, Yong Yu
- Abstract要約: 我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
- 参考スコア(独自算出の注目度): 43.655927559990616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the emergence of Large Language Models (LLMs), there has been a
significant improvement in the programming capabilities of models, attracting
growing attention from researchers. Evaluating the programming capabilities of
LLMs is crucial as it reflects the multifaceted abilities of LLMs, and it has
numerous downstream applications. In this paper, we propose CodeApex, a
bilingual benchmark dataset focusing on the programming comprehension, code
generation, and code correction abilities of LLMs. Programming comprehension
task tests LLMs on multiple-choice exam questions covering conceptual
understanding, commonsense reasoning, and multi-hop reasoning. The code
generation task evaluates LLMs through completing C++ functions based on
provided descriptions and prototypes. The code correction task asks LLMs to fix
real-world erroneous code segments with different error messages. We evaluate
12 widely used LLMs, including both general-purpose and specialized models.
GPT-4 exhibits the best programming capabilities, achieving approximate
accuracy of 69%, 54%, and 66% on the three tasks, respectively. Compared to
human performance, there is still significant room for improvement in LLM
programming. We hope that CodeApex can serve as a reference for evaluating the
coding capabilities of LLMs, further promoting their development and growth.
- Abstract(参考訳): 大規模言語モデル(llm)の出現により、モデルのプログラミング能力が大幅に改善され、研究者から注目を集めている。
LLMの多面的能力の反映として,LLMのプログラミング能力を評価することが重要である。
本稿では,LLMのプログラミング理解,コード生成,コード修正能力に着目した,バイリンガルなベンチマークデータセットであるCodeApexを提案する。
概念的理解、常識的推論、マルチホップ推論を含む多点検定質問に対するプログラミング理解タスクテスト LLM。
コード生成タスクは、提供された説明とプロトタイプに基づいてc++関数を完了することでllmを評価する。
コード修正タスクはllmsに、現実世界の誤ったコードセグメントを異なるエラーメッセージで修正するように要求する。
汎用モデルと特殊モデルの両方を含む12種類のLLMを評価した。
gpt-4は、最も優れたプログラミング能力を示し、3つのタスクで69%、54%、66%の近似精度を達成している。
人的パフォーマンスと比較しても、LLMプログラミングには大きな改善の余地がある。
CodeApex が LLM のコーディング能力を評価するリファレンスとして機能し,開発と成長をさらに促進できることを願っている。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - A Survey of Large Language Models for Code: Evolution, Benchmarking, and
Future Trends [30.774685501251817]
一般的な大規模言語モデル(LLM)は、ソフトウェア工学におけるコード生成のようなタスクにおいて大きな可能性を証明している。
コードLLMのかなりの部分は、モデルファインチューニングを通じて一般的なLLMから派生している。
現在、Code LLMとそのパフォーマンスに関する体系的な調査が欠如している。
論文 参考訳(メタデータ) (2023-11-17T07:55:16Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - CodeScope: An Execution-based Multilingual Multitask Multidimensional
Benchmark for Evaluating LLMs on Code Understanding and Generation [18.900866729792767]
LLM(Large Language Models)は、コーディングに関連するタスクにおいて顕著なパフォーマンスを示す。
LLMのコード理解と生成能力を評価するための既存のベンチマークは、厳しい制限に悩まされている。
実行ベース,多言語,マルチタスク,多次元評価ベンチマークであるCodeScopeを紹介する。
論文 参考訳(メタデータ) (2023-11-14T23:18:52Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - At Which Training Stage Does Code Data Help LLMs Reasoning? [21.74241875923737]
本稿では,Large Language Models (LLM) に対するコードデータの影響について検討する。
コードとテキストの混合による事前学習 LLM は LLM の一般的な推論能力を大幅に向上させることができる。
命令チューニングの段階では、コードデータはLLMにタスク固有の推論能力を与える。
論文 参考訳(メタデータ) (2023-09-28T09:50:27Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。