Fugu-MT 論文翻訳(概要): CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models

論文の概要: CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models

arxiv url: http://arxiv.org/abs/2309.01940v3
Date: Sun, 10 Sep 2023 13:32:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 18:17:03.622769
Title: CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models
Title（参考訳）: CodeApex: 大規模言語モデルのためのバイリンガルプログラミング評価ベンチマーク
Authors: Lingyue Fu, Huacan Chai, Shuang Luo, Kounianhua Du, Weiming Zhang, Longteng Fan, Jiayi Lei, Renting Rui, Jianghao Lin, Yuchen Fang, Yifan Liu, Jingkuan Wang, Siyuan Qi, Kangning Zhang, Weinan Zhang, Yong Yu
Abstract要約: 大規模言語モデル(LLM)のプログラミング理解とコード生成能力に着目したベンチマークデータセットであるCodeApexを提案する。 CodeApexは3種類の多重選択質問で構成されており、プログラミングの理解タスクにおいてLLMを評価するように設計されている。汎用モデルと特化モデルの両方を含む14の最先端LCMを評価し, GPTは最高のプログラミング能力を示し, 2つのタスクに対してそれぞれ50%と56%の近似精度を達成している。
参考スコア（独自算出の注目度）: 43.655927559990616
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the emergence of Large Language Models (LLMs), there has been a significant improvement in the programming capabilities of models, attracting growing attention from researchers. We propose CodeApex, a bilingual benchmark dataset focusing on the programming comprehension and code generation abilities of LLMs. CodeApex comprises three types of multiple-choice questions: conceptual understanding, commonsense reasoning, and multi-hop reasoning, designed to evaluate LLMs on programming comprehension tasks. Additionally, CodeApex utilizes algorithmic questions and corresponding test cases to assess the code quality generated by LLMs. We evaluate 14 state-of-the-art LLMs, including both general-purpose and specialized models. GPT exhibits the best programming capabilities, achieving approximate accuracies of 50% and 56% on the two tasks, respectively. There is still significant room for improvement in programming tasks. We hope that CodeApex can serve as a reference for evaluating the coding capabilities of LLMs, further promoting their development and growth. Datasets are released at https://github.com/APEXLAB/CodeApex.git. CodeApex submission website is https://apex.sjtu.edu.cn/codeapex/.
Abstract（参考訳）: 大規模言語モデル(llm)の出現により、モデルのプログラミング能力が大幅に改善され、研究者から注目を集めている。我々は,LLMのプログラミング理解とコード生成能力に着目した,バイリンガルなベンチマークデータセットであるCodeApexを提案する。 codeapexは、概念理解、コモンセンス推論、マルチホップ推論という、プログラミング理解タスクのllmを評価するための3つのタイプのマルチチョイス質問を含んでいる。さらに、CodeApexはアルゴリズムによる質問とそれに対応するテストケースを使用して、LLMが生成するコード品質を評価する。汎用モデルと特殊モデルの両方を含む14の最先端LCMを評価した。 GPTは最高のプログラミング能力を示し、2つのタスクでそれぞれ50%と56%の近似精度を達成する。プログラミングタスクの改善の余地は依然として大きい。 CodeApex が LLM のコーディング能力を評価するリファレンスとして機能し,開発と成長をさらに促進できることを願っている。データセットはhttps://github.com/APEXLAB/CodeApex.gitで公開されている。 codeapexの投稿サイトはhttps://apex.sjtu.edu.cn/codeapex/である。

関連論文リスト

On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
CHAI for LLMs: Improving Code-Mixed Translation in Large Language Models through Reinforcement Learning with AI Feedback [11.223762031003671]
大規模言語モデル(LLM)は、様々なNLPタスクにまたがる顕著な機能を示しているが、コード混在(またはコード切替)言語理解に苦慮している。本稿では,多言語LLMのコード混合言語処理能力を向上させるための新しいフレームワークであるCHAIを提案する。解析の結果,CHAI を用いた LLM は,コード混在翻訳タスクにおいて,最先端のオープンソース LLM よりも25.66% 向上していることがわかった。
論文参考訳（メタデータ） (2024-11-13T22:56:00Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
Source Code Summarization in the Era of Large Language Models [23.715005053430957]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文参考訳（メタデータ） (2024-07-09T05:48:42Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
CodeMind: Evaluating Large Language Models for Code Reasoning [6.819757372634151]
大規模言語モデル(LLM)は、プログラミングタスクの自動化に広く使われている。本稿では,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。
論文参考訳（メタデータ） (2024-02-15T02:24:46Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
A Survey of Large Language Models for Code: Evolution, Benchmarking, and Future Trends [30.774685501251817]
一般的な大規模言語モデル(LLM)は、ソフトウェア工学におけるコード生成のようなタスクにおいて大きな可能性を証明している。コードLLMのかなりの部分は、モデルファインチューニングを通じて一般的なLLMから派生している。現在、Code LLMとそのパフォーマンスに関する体系的な調査が欠如している。
論文参考訳（メタデータ） (2023-11-17T07:55:16Z)
Testing LLMs on Code Generation with Varying Levels of Prompt Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文参考訳（メタデータ） (2023-11-10T23:41:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。