Fugu-MT 論文翻訳(概要): HumanEvo: An Evolution-aware Benchmark for More Realistic Evaluation of Repository-level Code Generation

論文の概要: HumanEvo: An Evolution-aware Benchmark for More Realistic Evaluation of Repository-level Code Generation

arxiv url: http://arxiv.org/abs/2406.06918v2
Date: Tue, 18 Mar 2025 04:58:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:09.847559
Title: HumanEvo: An Evolution-aware Benchmark for More Realistic Evaluation of Repository-level Code Generation
Title（参考訳）: HumanEvo: リポジトリレベルのコード生成のより現実的な評価のための進化型ベンチマーク
Authors: Dewu Zheng, Yanlin Wang, Ensheng Shi, Ruikai Zhang, Yuchi Ma, Hongyu Zhang, Zibin Zheng,
Abstract要約: 我々は,大規模言語モデルのコード生成性能を,ソフトウェア開発の進化的性質を反映した設定内で理解するための実証的研究を行う。我々は、自動実行ベースの評価ツールを備えた進化型リポジトリレベルのコード生成データセットであるHumanEvoを使用します。従来の進化を無視した評価手法は, 10.0%から61.1%の範囲で, LLMの膨張性能が向上することがわかった。
参考スコア（独自算出の注目度）: 36.1669124651617
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To evaluate the repository-level code generation capabilities of Large Language Models (LLMs) in complex real-world software development scenarios, many evaluation methods have been developed. These methods typically leverage contextual code from the latest version of a project to assist LLMs in accurately generating the desired function. However, such evaluation methods fail to consider the dynamic evolution of software projects over time, which we refer to as evolution-ignored settings. This in turn results in inaccurate evaluation of LLMs' performance. In this paper, we conduct an empirical study to deeply understand LLMs' code generation performance within settings that reflect the evolution nature of software development. To achieve this, we first construct an evolution-aware repository-level code generation dataset, namely HumanEvo, equipped with an automated execution-based evaluation tool. Second, we manually categorize HumanEvo according to dependency levels to more comprehensively analyze the model's performance in generating functions with different dependency levels. Third, we conduct extensive experiments on HumanEvo with seven representative and diverse LLMs to verify the effectiveness of the proposed benchmark. We obtain several important findings through our experimental study. For example, we find that previous evolution-ignored evaluation methods result in inflated performance of LLMs, with performance overestimations ranging from 10.0% to 61.1% under different context acquisition methods, compared to the evolution-aware evaluation approach. Based on the findings, we give actionable suggestions for more realistic evaluation of LLMs on code generation. We also build a shared evolution-aware code generation toolbox to facilitate future research.
Abstract（参考訳）: 複雑な実世界のソフトウェア開発シナリオにおいて,LLM(Large Language Models)のリポジトリレベルのコード生成能力を評価するために,多くの評価手法が開発されている。これらのメソッドは通常、プロジェクトの最新バージョンのコンテキストコードを利用して、所望の関数を正確に生成するLLMを支援する。しかし、このような評価手法は、時間とともにソフトウェアプロジェクトの動的進化を考慮できない。その結果,LLMの性能が不正確なことが判明した。本稿では,LLMのコード生成性能を,ソフトウェア開発の進化的性質を反映した設定内で深く理解するための実証的研究を行う。そこで我々はまず,自動実行に基づく評価ツールを備えた進化型リポジトリレベルのコード生成データセットであるHumanEvoを構築した。次に、HumanEvoを依存性レベルに応じて手動で分類し、依存関係レベルが異なる関数を生成する際のモデルの性能をより包括的に分析する。第3に,提案したベンチマークの有効性を検証するため,HumanEvoの7つの代表および多種多様なLCMを用いて広範な実験を行った。実験によりいくつかの重要な知見を得た。例えば、従来の進化を無視した評価手法は、進化を意識した評価手法と比較して、10.0%から61.1%の性能過大評価を行い、LCMの膨張性能が向上することがわかった。本研究は,コード生成におけるLCMのより現実的な評価のための実用的な提案である。また、将来の研究を促進するために、進化を意識したコード生成ツールボックスも構築しています。

関連論文リスト

AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research [33.79419161415481]
AbGenは、科学研究のためのアブレーション研究を設計する際のLSMの能力を評価するために設計された最初のベンチマークである。そこで我々は,一般的な自動評価システムの信頼性を評価するメタ評価ベンチマークAbGen-Evalを開発した。
論文参考訳（メタデータ） (2025-07-17T17:09:22Z)
Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey [45.485318955120924]
従来の大規模言語モデル(LLM)からより高度なAIエージェントへの移行は、重要な進化のステップである。既存の評価フレームワークは、LLMチャットボットとAIエージェントの区別を曖昧にし、適切なベンチマークを選択する研究者の間で混乱を招くことが多い。本稿では,進化的観点からの現在の評価手法の体系的分析を紹介する。
論文参考訳（メタデータ） (2025-06-06T17:52:18Z)
ProjectEval: A Benchmark for Programming Agents Automated Evaluation on Project-Level Code Generation [10.748303323995986]
ユーザインタラクションをシミュレートしてプロジェクトレベルのコード生成を自動評価する,LLMエージェントのための新しいベンチマークであるProjectEvalを紹介する。 ProjectEvalは、実行のためのユーザインタラクションシミュレーションと、既存の客観的インジケータによるコード類似性によって、生成されたプロジェクトを評価することができる。システム工学的なプロジェクトコード、プロジェクト全体の理解、総合的な分析能力が、LLMエージェントが実践的なプロジェクトを達成する鍵であることに気付きました。
論文参考訳（メタデータ） (2025-03-10T07:47:27Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
A Survey on Evaluating Large Language Models in Code Generation Tasks [30.256255254277914]
本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
論文参考訳（メタデータ） (2024-08-29T12:56:06Z)
CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Large Language Models as Surrogate Models in Evolutionary Algorithms: A Preliminary Study [5.6787965501364335]
サロゲートアシスト選択は、高価な最適化問題を解決する進化アルゴリズムの中核的なステップである。伝統的に、これは従来の機械学習手法に依存しており、過去の評価を利用して新しいソリューションの性能を予測する。本研究では,LLM推論機能に基づいた新しいサロゲートモデルを提案する。
論文参考訳（メタデータ） (2024-06-15T15:54:00Z)
A Survey on Large Language Models for Code Generation [9.555952109820392]
大規模言語モデル(LLM)は、様々なコード関連のタスクで顕著な進歩を遂げています。本調査は、総合的かつ最新の文献レビューを提供することで、学界と実践的発展のギャップを埋めることを目的としている。
論文参考訳（メタデータ） (2024-06-01T17:48:15Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文参考訳（メタデータ） (2024-04-22T17:43:23Z)
Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文参考訳（メタデータ） (2024-04-10T02:46:08Z)
Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs [30.179703001666173]
大規模言語モデル(LLM)にとって、ファクチュアリティの問題は重要な問題である我々は,かなり大きなテストデータセットを用いて,LLMの性能を評価するためにGraphEvalを提案する。テストデータセットは、高価な人的努力なしで1000万以上の事実を持つ大規模な知識グラフから取得される。
論文参考訳（メタデータ） (2024-04-01T06:01:17Z)
Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文参考訳（メタデータ） (2024-03-22T14:47:35Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming [12.355284125578342]
大規模言語モデル(LLM)は、現代のソフトウェア開発の焦点となっている。 LLMは、インテリジェントでチャット駆動のプログラミングアシスタントとして機能することで、開発者の生産性を大幅に向上する可能性がある。しかし、それぞれのシステムは、最高のパフォーマンスを確保するために、LLMをそのワークスペースに向ける必要がある。
論文参考訳（メタデータ） (2024-02-22T03:51:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。