Fugu-MT 論文翻訳(概要): How Well Do LLMs Generate Code for Different Application Domains? Benchmark and Evaluation

論文の概要: How Well Do LLMs Generate Code for Different Application Domains? Benchmark and Evaluation

arxiv url: http://arxiv.org/abs/2412.18573v1
Date: Tue, 24 Dec 2024 17:56:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-25 19:23:17.847235
Title: How Well Do LLMs Generate Code for Different Application Domains? Benchmark and Evaluation
Title（参考訳）: LLMは、異なるアプリケーションドメインのコードを生成するか? ベンチマークと評価
Authors: Dewu Zheng, Yanlin Wang, Ensheng Shi, Hongyu Zhang, Zibin Zheng,
Abstract要約: MultiCodeBenchは、12のソフトウェア開発ドメインと15のプログラミング言語をカバーする2,400のプログラミングタスクで構成されている。静的解析に基づく依存関係解析ツールを構築し,各タスクの真理における依存関係を抽出する。我々は、異なるアプリケーション領域にまたがるLLMのコード生成性能を明らかにし、下流の開発者の実践的な洞察を提供する。
参考スコア（独自算出の注目度）: 38.9008464420423
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, an increasing number of AI-driven programming assistants powered by code LLMs have been integrated into various real-world software development environments, significantly boosting developer productivity. However, existing code generation benchmarks primarily focus on general-purpose scenarios, leaving the code generation performance of LLMs for specific application domains largely unknown. In this paper, we introduce a new benchmark, MultiCodeBench, to fill this gap. MultiCodeBench comprises 2,400 programming tasks, covering 12 popular software development domains and 15 programming languages. Specifically, we perform in-depth research to identify these 12 application domains. Given that each domain may involve multiple technical frameworks, and that different frameworks present distinct challenges in the coding process, we categorize the commonly used frameworks and platforms within each domain. We then sample programming problems from GitHub repositories related to these subdomains. To ensure the quality of the tasks and mitigate data leakage issues, we invite annotators to rewrite the docstrings for each task in MultiCodeBench. Additionally, we build a static analysis-based dependency parsing tool to extract the dependencies in the ground truth for each task, enabling deeper performance analysis. Through extensive experiments on MultiCodeBench with eleven representative mainstream LLMs, we reveal the code generation performance of the LLMs across different application domains, providing practical insights for developers in downstream fields when selecting LLMs. Furthermore, we analyze the reasons behind the models' failures in completing software application development tasks, offering guidance for model developers to enhance domain-specific code generation capabilities.
Abstract（参考訳）: 近年、コードLLMを利用したAI駆動型プログラミングアシスタントが、様々な現実世界のソフトウェア開発環境に統合され、開発者の生産性が著しく向上している。しかし、既存のコード生成ベンチマークは主に汎用シナリオに焦点を当てており、特定のアプリケーションドメインに対するLLMのコード生成性能はほとんど不明である。本稿では,このギャップを埋めるために,新しいベンチマークであるMultiCodeBenchを紹介する。 MultiCodeBenchは2,400のプログラミングタスクで構成され、12のソフトウェア開発ドメインと15のプログラミング言語をカバーしている。具体的には、これらの12のアプリケーションドメインを詳細に調査する。各ドメインが複数の技術フレームワークを伴い得ること、そして異なるフレームワークがコーディングプロセスにおいて異なる課題を示すことを考えると、私たちは各ドメインでよく使われているフレームワークとプラットフォームを分類します。次に、これらのサブドメインに関連するGitHubリポジトリからプログラミング問題をサンプル化する。タスクの品質を確保し、データ漏洩の問題を緩和するために、アノテーションを招待し、MultiCodeBenchで各タスクのドキュメントを書き直す。さらに、静的解析に基づく依存性解析ツールを構築し、各タスクの真理における依存関係を抽出し、より深いパフォーマンス分析を可能にします。代表的な11のLLMによるMultiCodeBenchに関する広範な実験を通じて、異なるアプリケーションドメインにわたるLLMのコード生成性能を明らかにし、LLMを選択する際に下流の開発者に対して実用的な洞察を提供する。さらに、我々は、モデル開発者がドメイン固有のコード生成機能を強化するためのガイダンスを提供する、ソフトウェア開発タスクの完了におけるモデルの失敗の原因を分析します。

関連論文リスト

General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文参考訳（メタデータ） (2025-05-20T17:41:33Z)
EvoCodeBench: An Evolving Code Generation Benchmark with Domain-Specific Evaluations [87.34429475432998]
既存のベンチマークには、データのリークとドメイン固有の評価の欠如という2つの制限がある。 EvoCodeBenchは、データ漏洩を避けるために、各期間(例:6ヶ月)に動的に更新される。この記事では、25のリポジトリから275のサンプルを含む最初のバージョンであるEvoCodeBench-2403をリリースする。
論文参考訳（メタデータ） (2024-10-30T08:57:59Z)
DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation [48.11754113512047]
この研究には、コード生成ベンチマークデータセットであるDOMAINEVALが含まれており、6つの人気のあるドメインを含んでいる。私たちのパイプラインは完全に自動化され、コードリポジトリから研究対象のフォーマットへのプッシュボットの構築が可能になります。本研究のコントリビューションには、コード生成ベンチマークデータセットであるDOMAINEVAL、コードベンチマークを構築するための完全自動化パイプライン、DOMAINEVALのパフォーマンスに基づいたコード生成タスクにおけるLLMの制限の識別が含まれている。
論文参考訳（メタデータ） (2024-08-23T16:33:58Z)
R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文参考訳（メタデータ） (2024-06-17T15:59:49Z)
Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。 DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。 GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub [79.31134731122462]
オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。我々は,オープンドメインの進化するクエリに,GitHubから専門ツールを自律的に統合することで対処できる,新しいLLMベースのエージェントシステムであるOpenAgentを紹介する。
論文参考訳（メタデータ） (2023-12-28T15:47:30Z)
On the Effectiveness of Large Language Models in Domain-Specific Code Generation [20.61882220430463]
ChatGPTのような大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。コード生成プロセスにAPI知識を効果的に組み込む方法について検討する。私たちはこれらの戦略を、DomCoderと呼ばれる新しいコード生成アプローチと呼んでいる。
論文参考訳（メタデータ） (2023-12-04T05:41:02Z)
Knowledge Plugins: Enhancing Large Language Models for Domain-Specific Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文参考訳（メタデータ） (2023-11-16T07:09:38Z)
Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-05-23T18:01:49Z)
Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering [36.31193273252256]
大規模言語モデル(LLM)は、オープンドメインタスクにおいて大きな成果を上げている。しかし、実際の産業ドメイン固有のシナリオにおけるパフォーマンスは、特定のドメイン知識が欠如しているため平均的です。私たちは、Microsoft製品と顧客が遭遇するIT技術的な問題を中心にした、MSQA(QA)データセットのベンチマークを提供します。
論文参考訳（メタデータ） (2023-05-19T09:23:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。