Fugu-MT 論文翻訳(概要): Top General Performance = Top Domain Performance? DomainCodeBench: A Multi-domain Code Generation Benchmark

論文の概要: Top General Performance = Top Domain Performance? DomainCodeBench: A Multi-domain Code Generation Benchmark

arxiv url: http://arxiv.org/abs/2412.18573v2
Date: Mon, 17 Mar 2025 17:58:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:57.228613
Title: Top General Performance = Top Domain Performance? DomainCodeBench: A Multi-domain Code Generation Benchmark
Title（参考訳）: Top General Performance = Top Domain Performance? DomainCodeBench: マルチドメインコード生成ベンチマーク
Authors: Dewu Zheng, Yanlin Wang, Ensheng Shi, Xilin Liu, Yuchi Ma, Hongyu Zhang, Zibin Zheng,
Abstract要約: DomainCodeBenchは、12のソフトウェアアプリケーションドメインと15のプログラミング言語にわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。トップ・ジェネラル・ドメイン・モデルは特定のアプリケーション・ドメインで一貫して排他的でないことが分かりました。ドメイン固有の知識による拡張プロンプトは、パフォーマンスを約38.17%向上させる。
参考スコア（独自算出の注目度）: 38.14474956762422
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid advancement of large language models (LLMs), extensive research has been conducted to investigate the code generation capabilities of LLMs. However, existing efforts primarily focus on general-domain tasks, leaving LLMs' code generation performance in real-world application domains underexplored. This raises a critical question: can a model's general-domain coding ability reliably represent its ability in specialized domains? In this paper, we introduce DomainCodeBench, a multi-domain code generation benchmark designed to systematically evaluate LLMs across 12 software application domains and 15 programming languages. DomainCodeBench contains 2,400 manually verified tasks with ground truth, human-annotated docstrings, and fine-grained dependency information to ensure more coverage of domain-specific challenges. Specifically, we first identify the most popular application domains by topic mining. Then, we curate coding tasks based on commonly used frameworks and platforms in each domain. We obtain several findings through extensive experiments on DomainCodeBench with ten mainstream LLMs. (1) Performance decoupling: experiments reveal that top general-domain models do not consistently excel in specific application domains; (2) Domain-specific weaknesses: LLMs often fail due to domain knowledge gaps and third-party library misusage; (3) Contextual enhancement: we show that augmenting prompts with domain-specific knowledge improves performance by around 38.17%, providing actionable insights for performance optimization. Our replication package, including the benchmark, source code, and experimental results, is available at https://github.com/DeepSoftwareAnalytics/DomainCodeBench.
Abstract（参考訳）: 大規模言語モデル (LLM) の急速な進歩により, LLM のコード生成能力に関する研究が盛んに行われている。しかし、既存の取り組みは主に汎用ドメインタスクに重点を置いており、LLMのコード生成性能は実証されていない。モデルの汎用ドメインコーディング能力は、特定のドメインにおけるその能力を確実に表現できるだろうか? 本稿では、12のソフトウェアアプリケーションドメインと15のプログラミング言語にわたるLLMを体系的に評価するために設計されたマルチドメインコード生成ベンチマークであるDomainCodeBenchを紹介する。 DomainCodeBenchには2,400の手作業による検証作業、人間アノテーションによるドキュストリング、ドメイン固有の課題のカバレッジを確保するための詳細な依存性情報が含まれている。具体的には、トピックマイニングによって、最も人気のあるアプリケーションドメインを最初に識別する。次に、各ドメインでよく使われるフレームワークとプラットフォームに基づいてコーディングタスクをキュレートする。そこで本研究では,DomainCodeBenchの10種類の LLM を用いた大規模実験により,いくつかの知見を得た。 1) パフォーマンスデカップリング: 実験により、トップの汎用ドメインモデルが特定のアプリケーションドメインで一貫して排他的でないことが明らかになった; (2) ドメイン固有の弱点: LLMは、ドメインの知識ギャップとサードパーティのライブラリの誤用によってしばしば失敗する; (3) コンテキスト拡張: ドメイン固有の知識によるプロンプトの増強により、パフォーマンスが38.17%向上し、パフォーマンス最適化のための実用的な洞察を提供する。ベンチマーク、ソースコード、実験結果を含む当社のレプリケーションパッケージは、https://github.com/DeepSoftwareAnalytics/DomainCodeBench.comから入手可能です。

関連論文リスト

KOCO-BENCH: Can Large Language Models Leverage Domain Knowledge in Software Development? [58.85952408038657]
大規模言語モデル(LLM)は汎用プログラミングに優れるが、ドメイン固有のソフトウェア開発に苦戦する。既存のドメイン固有のコードベンチマークでは、ドメインの特殊化手法の有効性を評価できない。実世界のソフトウェア開発における領域特化手法を評価するための新しいベンチマークであるKOCO-BENCHを提案する。
論文参考訳（メタデータ） (2026-01-19T17:20:16Z)
General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文参考訳（メタデータ） (2025-05-20T17:41:33Z)
EvoCodeBench: An Evolving Code Generation Benchmark with Domain-Specific Evaluations [87.34429475432998]
既存のベンチマークには、データのリークとドメイン固有の評価の欠如という2つの制限がある。 EvoCodeBenchは、データ漏洩を避けるために、各期間(例:6ヶ月)に動的に更新される。この記事では、25のリポジトリから275のサンプルを含む最初のバージョンであるEvoCodeBench-2403をリリースする。
論文参考訳（メタデータ） (2024-10-30T08:57:59Z)
DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation [48.11754113512047]
この研究には、コード生成ベンチマークデータセットであるDOMAINEVALが含まれており、6つの人気のあるドメインを含んでいる。私たちのパイプラインは完全に自動化され、コードリポジトリから研究対象のフォーマットへのプッシュボットの構築が可能になります。本研究のコントリビューションには、コード生成ベンチマークデータセットであるDOMAINEVAL、コードベンチマークを構築するための完全自動化パイプライン、DOMAINEVALのパフォーマンスに基づいたコード生成タスクにおけるLLMの制限の識別が含まれている。
論文参考訳（メタデータ） (2024-08-23T16:33:58Z)
R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文参考訳（メタデータ） (2024-06-17T15:59:49Z)
Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。 DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。 GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub [79.31134731122462]
オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。我々は,オープンドメインの進化するクエリに,GitHubから専門ツールを自律的に統合することで対処できる,新しいLLMベースのエージェントシステムであるOpenAgentを紹介する。
論文参考訳（メタデータ） (2023-12-28T15:47:30Z)
On the Effectiveness of Large Language Models in Domain-Specific Code Generation [20.61882220430463]
ChatGPTのような大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。コード生成プロセスにAPI知識を効果的に組み込む方法について検討する。私たちはこれらの戦略を、DomCoderと呼ばれる新しいコード生成アプローチと呼んでいる。
論文参考訳（メタデータ） (2023-12-04T05:41:02Z)
Knowledge Plugins: Enhancing Large Language Models for Domain-Specific Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文参考訳（メタデータ） (2023-11-16T07:09:38Z)
Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-05-23T18:01:49Z)
Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering [36.31193273252256]
大規模言語モデル(LLM)は、オープンドメインタスクにおいて大きな成果を上げている。しかし、実際の産業ドメイン固有のシナリオにおけるパフォーマンスは、特定のドメイン知識が欠如しているため平均的です。私たちは、Microsoft製品と顧客が遭遇するIT技術的な問題を中心にした、MSQA(QA)データセットのベンチマークを提供します。
論文参考訳（メタデータ） (2023-05-19T09:23:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。