論文の概要: CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models
- arxiv url: http://arxiv.org/abs/2309.01940v3
- Date: Sun, 10 Sep 2023 13:32:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 18:17:03.622769
- Title: CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models
- Title(参考訳): CodeApex: 大規模言語モデルのためのバイリンガルプログラミング評価ベンチマーク
- Authors: Lingyue Fu, Huacan Chai, Shuang Luo, Kounianhua Du, Weiming Zhang,
Longteng Fan, Jiayi Lei, Renting Rui, Jianghao Lin, Yuchen Fang, Yifan Liu,
Jingkuan Wang, Siyuan Qi, Kangning Zhang, Weinan Zhang, Yong Yu
- Abstract要約: 大規模言語モデル(LLM)のプログラミング理解とコード生成能力に着目したベンチマークデータセットであるCodeApexを提案する。
CodeApexは3種類の多重選択質問で構成されており、プログラミングの理解タスクにおいてLLMを評価するように設計されている。
汎用モデルと特化モデルの両方を含む14の最先端LCMを評価し, GPTは最高のプログラミング能力を示し, 2つのタスクに対してそれぞれ50%と56%の近似精度を達成している。
- 参考スコア(独自算出の注目度): 43.655927559990616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the emergence of Large Language Models (LLMs), there has been a
significant improvement in the programming capabilities of models, attracting
growing attention from researchers. We propose CodeApex, a bilingual benchmark
dataset focusing on the programming comprehension and code generation abilities
of LLMs. CodeApex comprises three types of multiple-choice questions:
conceptual understanding, commonsense reasoning, and multi-hop reasoning,
designed to evaluate LLMs on programming comprehension tasks. Additionally,
CodeApex utilizes algorithmic questions and corresponding test cases to assess
the code quality generated by LLMs. We evaluate 14 state-of-the-art LLMs,
including both general-purpose and specialized models. GPT exhibits the best
programming capabilities, achieving approximate accuracies of 50% and 56% on
the two tasks, respectively. There is still significant room for improvement in
programming tasks. We hope that CodeApex can serve as a reference for
evaluating the coding capabilities of LLMs, further promoting their development
and growth. Datasets are released at https://github.com/APEXLAB/CodeApex.git.
CodeApex submission website is https://apex.sjtu.edu.cn/codeapex/.
- Abstract(参考訳): 大規模言語モデル(llm)の出現により、モデルのプログラミング能力が大幅に改善され、研究者から注目を集めている。
我々は,LLMのプログラミング理解とコード生成能力に着目した,バイリンガルなベンチマークデータセットであるCodeApexを提案する。
codeapexは、概念理解、コモンセンス推論、マルチホップ推論という、プログラミング理解タスクのllmを評価するための3つのタイプのマルチチョイス質問を含んでいる。
さらに、CodeApexはアルゴリズムによる質問とそれに対応するテストケースを使用して、LLMが生成するコード品質を評価する。
汎用モデルと特殊モデルの両方を含む14の最先端LCMを評価した。
GPTは最高のプログラミング能力を示し、2つのタスクでそれぞれ50%と56%の近似精度を達成する。
プログラミングタスクの改善の余地は依然として大きい。
CodeApex が LLM のコーディング能力を評価するリファレンスとして機能し,開発と成長をさらに促進できることを願っている。
データセットはhttps://github.com/APEXLAB/CodeApex.gitで公開されている。
codeapexの投稿サイトはhttps://apex.sjtu.edu.cn/codeapex/である。
関連論文リスト
- InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiCoder-Evalは、コードのQAベンチマークである。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiCoder-Eval 上で 80 以上のコード LLM に対して,系統的な評価を行い,一連の知見を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - A Survey of Large Language Models for Code: Evolution, Benchmarking, and
Future Trends [30.774685501251817]
一般的な大規模言語モデル(LLM)は、ソフトウェア工学におけるコード生成のようなタスクにおいて大きな可能性を証明している。
コードLLMのかなりの部分は、モデルファインチューニングを通じて一般的なLLMから派生している。
現在、Code LLMとそのパフォーマンスに関する体系的な調査が欠如している。
論文 参考訳(メタデータ) (2023-11-17T07:55:16Z) - CodeScope: An Execution-based Multilingual Multitask Multidimensional
Benchmark for Evaluating LLMs on Code Understanding and Generation [18.900866729792767]
LLM(Large Language Models)は、コーディングに関連するタスクにおいて顕著なパフォーマンスを示す。
LLMのコード理解と生成能力を評価するための既存のベンチマークは、厳しい制限に悩まされている。
実行ベース,多言語,マルチタスク,多次元評価ベンチマークであるCodeScopeを紹介する。
論文 参考訳(メタデータ) (2023-11-14T23:18:52Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - At Which Training Stage Does Code Data Help LLMs Reasoning? [21.74241875923737]
本稿では,Large Language Models (LLM) に対するコードデータの影響について検討する。
コードとテキストの混合による事前学習 LLM は LLM の一般的な推論能力を大幅に向上させることができる。
命令チューニングの段階では、コードデータはLLMにタスク固有の推論能力を与える。
論文 参考訳(メタデータ) (2023-09-28T09:50:27Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。