論文の概要: How Well Do LLMs Generate Code for Different Application Domains? Benchmark and Evaluation
- arxiv url: http://arxiv.org/abs/2412.18573v1
- Date: Tue, 24 Dec 2024 17:56:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:56:59.905458
- Title: How Well Do LLMs Generate Code for Different Application Domains? Benchmark and Evaluation
- Title(参考訳): LLMは、異なるアプリケーションドメインのコードを生成するか? ベンチマークと評価
- Authors: Dewu Zheng, Yanlin Wang, Ensheng Shi, Hongyu Zhang, Zibin Zheng,
- Abstract要約: MultiCodeBenchは、12のソフトウェア開発ドメインと15のプログラミング言語をカバーする2,400のプログラミングタスクで構成されている。
静的解析に基づく依存関係解析ツールを構築し,各タスクの真理における依存関係を抽出する。
我々は、異なるアプリケーション領域にまたがるLLMのコード生成性能を明らかにし、下流の開発者の実践的な洞察を提供する。
- 参考スコア(独自算出の注目度): 38.9008464420423
- License:
- Abstract: Recently, an increasing number of AI-driven programming assistants powered by code LLMs have been integrated into various real-world software development environments, significantly boosting developer productivity. However, existing code generation benchmarks primarily focus on general-purpose scenarios, leaving the code generation performance of LLMs for specific application domains largely unknown. In this paper, we introduce a new benchmark, MultiCodeBench, to fill this gap. MultiCodeBench comprises 2,400 programming tasks, covering 12 popular software development domains and 15 programming languages. Specifically, we perform in-depth research to identify these 12 application domains. Given that each domain may involve multiple technical frameworks, and that different frameworks present distinct challenges in the coding process, we categorize the commonly used frameworks and platforms within each domain. We then sample programming problems from GitHub repositories related to these subdomains. To ensure the quality of the tasks and mitigate data leakage issues, we invite annotators to rewrite the docstrings for each task in MultiCodeBench. Additionally, we build a static analysis-based dependency parsing tool to extract the dependencies in the ground truth for each task, enabling deeper performance analysis. Through extensive experiments on MultiCodeBench with eleven representative mainstream LLMs, we reveal the code generation performance of the LLMs across different application domains, providing practical insights for developers in downstream fields when selecting LLMs. Furthermore, we analyze the reasons behind the models' failures in completing software application development tasks, offering guidance for model developers to enhance domain-specific code generation capabilities.
- Abstract(参考訳): 近年、コードLLMを利用したAI駆動型プログラミングアシスタントが、様々な現実世界のソフトウェア開発環境に統合され、開発者の生産性が著しく向上している。
しかし、既存のコード生成ベンチマークは主に汎用シナリオに焦点を当てており、特定のアプリケーションドメインに対するLLMのコード生成性能はほとんど不明である。
本稿では,このギャップを埋めるために,新しいベンチマークであるMultiCodeBenchを紹介する。
MultiCodeBenchは2,400のプログラミングタスクで構成され、12のソフトウェア開発ドメインと15のプログラミング言語をカバーしている。
具体的には、これらの12のアプリケーションドメインを詳細に調査する。
各ドメインが複数の技術フレームワークを伴い得ること、そして異なるフレームワークがコーディングプロセスにおいて異なる課題を示すことを考えると、私たちは各ドメインでよく使われているフレームワークとプラットフォームを分類します。
次に、これらのサブドメインに関連するGitHubリポジトリからプログラミング問題をサンプル化する。
タスクの品質を確保し、データ漏洩の問題を緩和するために、アノテーションを招待し、MultiCodeBenchで各タスクのドキュメントを書き直す。
さらに、静的解析に基づく依存性解析ツールを構築し、各タスクの真理における依存関係を抽出し、より深いパフォーマンス分析を可能にします。
代表的な11のLLMによるMultiCodeBenchに関する広範な実験を通じて、異なるアプリケーションドメインにわたるLLMのコード生成性能を明らかにし、LLMを選択する際に下流の開発者に対して実用的な洞察を提供する。
さらに、我々は、モデル開発者がドメイン固有のコード生成機能を強化するためのガイダンスを提供する、ソフトウェア開発タスクの完了におけるモデルの失敗の原因を分析します。
関連論文リスト
- DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation [48.11754113512047]
この研究には、コード生成ベンチマークデータセットであるDOMAINEVALが含まれており、6つの人気のあるドメインを含んでいる。
私たちのパイプラインは完全に自動化され、コードリポジトリから研究対象のフォーマットへのプッシュボットの構築が可能になります。
本研究のコントリビューションには、コード生成ベンチマークデータセットであるDOMAINEVAL、コードベンチマークを構築するための完全自動化パイプライン、DOMAINEVALのパフォーマンスに基づいたコード生成タスクにおけるLLMの制限の識別が含まれている。
論文 参考訳(メタデータ) (2024-08-23T16:33:58Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - A Survey on Large Language Models for Code Generation [9.555952109820392]
大規模言語モデル(LLM)は、様々なコード関連のタスクで顕著な進歩を遂げています。
本調査は、総合的かつ最新の文献レビューを提供することで、学界と実践的発展のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-06-01T17:48:15Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - On the Effectiveness of Large Language Models in Domain-Specific Code Generation [20.61882220430463]
ChatGPTのような大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。
コード生成プロセスにAPI知識を効果的に組み込む方法について検討する。
私たちはこれらの戦略を、DomCoderと呼ばれる新しいコード生成アプローチと呼んでいる。
論文 参考訳(メタデータ) (2023-12-04T05:41:02Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - CodeScope: An Execution-based Multilingual Multitask Multidimensional Benchmark for Evaluating LLMs on Code Understanding and Generation [18.354576598908448]
LLM(Large Language Models)は、人間のプログラミング支援に優れた性能を発揮している。
LLMのコード理解と生成能力を評価するための既存のベンチマークは、厳しい制限に悩まされている。
実行ベース,多言語,マルチタスク,多次元評価ベンチマークであるCodeScopeを紹介する。
論文 参考訳(メタデータ) (2023-11-14T23:18:52Z) - LLMatic: Neural Architecture Search via Large Language Models and Quality Diversity Optimization [4.951599300340954]
大きな言語モデル(LLM)は、幅広いタスクをこなせる強力なツールとして登場した。
本稿では、LLMの符号化機能を用いて、ニューラルネットワークを定義するコードに意味のあるバリエーションを導入することを提案する。
本稿では,LLMのコード生成能力とQDソリューションの多様性と堅牢性を融合させることで,ニューラルネットワーク探索(NAS)アルゴリズムであるtextttLLMaticを導入する。
論文 参考訳(メタデータ) (2023-06-01T19:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。