論文の概要: ComplexCodeEval: A Benchmark for Evaluating Large Code Models on More Complex Code
- arxiv url: http://arxiv.org/abs/2409.10280v1
- Date: Mon, 16 Sep 2024 13:43:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 15:30:16.984760
- Title: ComplexCodeEval: A Benchmark for Evaluating Large Code Models on More Complex Code
- Title(参考訳): ComplexCodeEval: より複雑なコードで大規模なコードモデルを評価するベンチマーク
- Authors: Jia Feng, Jiachen Liu, Cuiyun Gao, Chun Yong Chong, Chaozheng Wang, Shan Gao, Xin Xia,
- Abstract要約: ComplexCodeEvalは、様々な開発タスクで大きな言語モデル(LLM)を評価するために設計されたベンチマークである。
これには、上位のGitHubリポジトリから3,897のJavaサンプルと7,184のPythonサンプルが含まれている。
- 参考スコア(独自算出の注目度): 29.178248778212588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the application of large language models (LLMs) to code-related tasks has gained significant attention. However, existing evaluation benchmarks often focus on limited scenarios, such as code generation or completion, which do not reflect the diverse challenges developers face in real-world contexts. To address this, we introduce ComplexCodeEval, a benchmark designed to assess LCMs in various development tasks, including code generation, completion, API recommendation, and test case generation. It includes 3,897 Java samples and 7,184 Python samples from high-star GitHub repositories, each annotated with function signatures, docstrings, and API references to simulate real development environments. Our experiments across ten LCMs reveal that context improves performance and that data leakage can lead to overestimation, highlighting the need for more accurate evaluations.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)のコード関連タスクへの応用が注目されている。
しかし、既存の評価ベンチマークはコード生成や完了といった限られたシナリオに重点を置いていることが多く、これは開発者が現実世界のコンテキストで直面する様々な課題を反映していない。
これを解決するために、コード生成、補完、APIレコメンデーション、テストケース生成など、様々な開発タスクにおけるLCMを評価するために設計されたベンチマークであるComplexCodeEvalを紹介します。
その中には、3,897のJavaサンプルと7,184のPythonサンプルが含まれており、それぞれに関数シグネチャ、ドクストリング、実際の開発環境をシミュレートするAPIリファレンスが注釈付けされている。
10のLCMを対象とした実験では、コンテキストがパフォーマンスを向上し、データリークが過大評価につながることを示し、より正確な評価の必要性を強調しています。
関連論文リスト
- CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。
これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。
各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文 参考訳(メタデータ) (2024-06-17T14:58:29Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
リポジトリレベルのコード生成を評価するために設計された新しいベンチマークである textbfmethodnamews を提案する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
VersiCodeは,大規模言語モデルが特定のライブラリのバージョンに対して検証可能なコードを生成する能力を評価するために設計された,最初の包括的なデータセットである。
バージョン別コード補完(VSCC)とバージョン別コード編集(VACE)の2つの専用評価タスクを設計する。
LLMのパフォーマンスをベンチマークするために総合的な実験が行われ、これらのタスクとVersiCodeの難しさを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - CodeBenchGen: Creating Scalable Execution-based Code Generation Benchmarks [35.68087697258125]
スケーラブルな実行ベースのベンチマークを作成するためのフレームワークであるCodeBenchGenを紹介します。
我々は、任意のコード片を評価例に変換するために、大きな言語モデル(LLM)を利用する。
オープンソースおよびプロプライエタリなモデル上でコード生成実験を行い、人間とモデルの両方のパフォーマンスを分析します。
論文 参考訳(メタデータ) (2024-03-31T05:20:53Z) - DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code [34.03774442237902]
コード関連アプリケーションに適用される大規模言語モデルは、顕著な分野として現れている。
既存の評価ベンチマーク(HumanEval、MBPPなど)は、もはやその能力を評価するには不十分である。
コードに対するLLMの包括的で汚染のない評価手法であるLiveCodeBenchを提案する。
論文 参考訳(メタデータ) (2024-03-12T17:58:04Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。