論文の概要: RealBench: A Repo-Level Code Generation Benchmark Aligned with Real-World Software Development Practices
- arxiv url: http://arxiv.org/abs/2604.22659v1
- Date: Fri, 24 Apr 2026 15:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.521694
- Title: RealBench: A Repo-Level Code Generation Benchmark Aligned with Real-World Software Development Practices
- Title(参考訳): RealBench: 現実世界のソフトウェア開発プラクティスに準拠した、リポジトリレベルのコード生成ベンチマーク
- Authors: Jia Li, Hongyi Deng, Yiran Zhang, Kechi Zhang, Tianqi Shao, Tiankuo Zhao, Weinan Wang, Zhi Jin, Ge Li, Yang Liu, Yingtao Fang, Yihong Dong,
- Abstract要約: コード生成にLLM(Large Language Models)を使用することで、研究者は大幅に進歩した。
しかしながら、開発者は一般的に、生の自然言語記述ではなく、構造化された設計や仕様に基づいたコードを書く。
既存のベンチマークと実際の産業開発プラクティスのギャップは、現在のベンチマークスコアが、どれだけのコード生成が開発タスクの自動化に役立つかを正確に反映していないことを意味する。
- 参考スコア(独自算出の注目度): 54.956760584923295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Writing code requires significant time and effort in software development. To automate this process, researchers have made substantial progress using Large Language Models (LLMs) for code generation. Many benchmarks like HumanEval and EvoCodeBench have been created to evaluate LLMs by requiring them to generate code from natural language requirements. However, in enterprise applications and team development, developers typically write code based on structured designs or specifications rather than raw natural language descriptions. This gap between existing benchmarks and real industry development practices means that current benchmark scores may not accurately reflect how much code generation can help automate software development tasks. To address this gap, we propose RealBench, a repository-level code generation benchmark aligned with real-world industry software development practices. Each example includes both natural language requirements and UML diagrams as system design, matching how developers typically receive specifications. Based on the constructed benchmarks, we conduct a systematic evaluation of advanced LLMs' code generation capabilities when provided with structured system designs. The experimental results reveal key insights in current LLMs' capabilities for repo-level code generation aligned with real-world software development practices. First, we notice that regarding repo-level code generation, LLMs show much worse performance and there are significant performance gaps among LLMs. Second, LLMs are good at finding and creating modules defined in UML diagrams, but the quality of generated modules is often poor due to grammar and logic errors. Third, generating the entire repository at once is the best generation strategy on smaller repositories, while generating a complex repository with the module-by-module strategy works better compared to other strategies.
- Abstract(参考訳): コードを書くには、ソフトウェア開発にかなりの時間と労力が必要です。
このプロセスを自動化するために、研究者はLarge Language Models (LLMs) を使ってコード生成を行った。
HumanEvalやEvoCodeBenchといった多くのベンチマークは、自然言語要求からコードを生成することを要求することで、LLMを評価するために作成されている。
しかしながら、エンタープライズアプリケーションやチーム開発では、開発者は一般的に、生の自然言語記述ではなく、構造化された設計や仕様に基づいたコードを書く。
既存のベンチマークと実際の産業開発プラクティスのギャップは、現在のベンチマークスコアが、どの程度のコード生成がソフトウェア開発タスクの自動化に役立つかを正確に反映していないことを意味する。
このギャップに対処するため、我々はRealBenchというレポジトリレベルのコード生成ベンチマークを提案します。
それぞれの例には、自然言語要件とシステム設計としてのUMLダイアグラムの両方が含まれており、開発者が一般的に仕様を受信する方法と一致する。
構築されたベンチマークに基づいて,構造化システムの設計を行う際に,高度なLCMのコード生成能力を体系的に評価する。
実験結果は、実世界のソフトウェア開発プラクティスと整合したリポジトリレベルのコード生成に関する、現在のLLMの能力に関する重要な洞察を明らかにした。
まず、レポレベルのコード生成に関して、LLMははるかにパフォーマンスが悪く、LLM間には大きなパフォーマンスギャップがあることに気付きます。
第二に、LLMはUMLダイアグラムで定義されたモジュールの発見と作成に長けていますが、生成したモジュールの品質は文法やロジックのエラーのため、しばしば貧弱です。
第3に、一度にリポジトリ全体を生成することは、小さなリポジトリで最高の生成戦略であると同時に、モジュール・バイ・モジュール戦略で複雑なリポジトリを生成することは、他の戦略よりもうまく機能します。
関連論文リスト
- Environment-Aware Code Generation: How far are We? [52.69113158357018]
大規模言語モデル(LLM)がユーザの特定の環境に適した実行可能コードを確実に生成できるかどうかは不明である。
本稿では,環境対応コード生成(EACG)の最初の体系的研究について述べる。
その結果,現在のLLMは環境固有のコード生成に苦しむ一方で,環境の適合性や実行性も向上していることがわかった。
論文 参考訳(メタデータ) (2026-01-18T04:58:15Z) - On LLM-Assisted Generation of Smart Contracts from Business Processes [0.08192907805418582]
大規模言語モデル(LLM)は、ソフトウェアの生成方法の現実を変えました。
本稿では、ビジネスプロセス記述からスマートコントラクトコードを生成するためのLCMの使用について探索的研究を行う。
以上の結果から,LLMの性能はスマートコントラクト開発に必要な信頼性に劣ることがわかった。
論文 参考訳(メタデータ) (2025-07-30T20:39:45Z) - FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation [26.14778133391999]
FEA-Benchは、大規模な言語モデルがコードリポジトリ内でインクリメンタルな開発を行う能力を評価するために設計されたベンチマークである。
83のGitHubリポジトリからのプルリクエストを収集し、ルールベースとインテントベースのフィルタリングを使用して、新機能開発にフォーカスしたタスクインスタンスを構築します。
論文 参考訳(メタデータ) (2025-03-09T16:11:57Z) - CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [20.013757490442064]
タスク指向の命令に準拠する大規模言語モデル(LLM)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。
CodeIFは関数合成、アルゴリズム命令、コード説明など幅広いタスクを含んでいる。
我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文 参考訳(メタデータ) (2025-02-26T14:19:49Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。