Fugu-MT 論文翻訳(概要): DependEval: Benchmarking LLMs for Repository Dependency Understanding

論文の概要: DependEval: Benchmarking LLMs for Repository Dependency Understanding

arxiv url: http://arxiv.org/abs/2503.06689v1
Date: Sun, 09 Mar 2025 16:45:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.562963
Title: DependEval: Benchmarking LLMs for Repository Dependency Understanding
Title（参考訳）: DependEval:リポジトリ依存理解のためのLLMのベンチマーク
Authors: Junjia Du, Yadi Liu, Hongcheng Guo, Jiawei Wang, Haojian Huang, Yunyi Ni, Zhoujun Li,
Abstract要約: 大規模言語モデル(LLM)は、コード生成、現実のソフトウェア開発において、リポジトリレベルの推論の高度な要求において、かなり有望であることを示している。リポジトリ依存性の理解(DependEval)を評価するために設計された階層的なベンチマークを導入する。 Benchmarkは、現実世界のWebサイトから収集された15,576のリポジトリに基づいている。
参考スコア（独自算出の注目度）: 16.19185341217556
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models (LLMs) have shown considerable promise in code generation, real-world software development demands advanced repository-level reasoning. This includes understanding dependencies, project structures, and managing multi-file changes. However, the ability of LLMs to effectively comprehend and handle complex code repositories has yet to be fully explored. To address challenges, we introduce a hierarchical benchmark designed to evaluate repository dependency understanding (DependEval). Benchmark is based on 15,576 repositories collected from real-world websites. It evaluates models on three core tasks: Dependency Recognition, Repository Construction, and Multi-file Editing, across 8 programming languages from actual code repositories. Our evaluation of over 25 LLMs reveals substantial performance gaps and provides valuable insights into repository-level code understanding.
Abstract（参考訳）: 大規模言語モデル(LLM)はコード生成においてかなりの可能性を秘めているが、現実のソフトウェア開発ではリポジトリレベルの推論を必要としている。これには依存関係の理解、プロジェクト構造、複数ファイルの変更の管理が含まれる。しかし、LLMが複雑なコードリポジトリを効果的に理解し、処理できる能力については、まだ完全には研究されていない。課題に対処するために、リポジトリ依存性の理解(DependEval)を評価するために設計された階層的なベンチマークを導入する。 Benchmarkは、現実世界のWebサイトから収集された15,576のリポジトリに基づいている。依存性認識(Dependency Recognition)、リポジトリ構築(Repository Construction)、マルチファイル編集(Multi-file Editing)の3つのコアタスクでモデルを評価する。 LLMを25以上評価すると、パフォーマンスのギャップが大きくなり、リポジトリレベルのコード理解に関する貴重な洞察が得られます。

関連論文リスト

FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation [26.14778133391999]
FEA-Benchは、大規模な言語モデルがコードリポジトリ内でインクリメンタルな開発を行う能力を評価するために設計されたベンチマークである。 83のGitHubリポジトリからのプルリクエストを収集し、ルールベースとインテントベースのフィルタリングを使用して、新機能開発にフォーカスしたタスクインスタンスを構築します。
論文参考訳（メタデータ） (2025-03-09T16:11:57Z)
CoReQA: Uncovering Potentials of Language Models in Code Repository Question Answering [12.431784613373523]
Code Repositoryレベルの質問応答のベンチマークであるCoReQAを紹介する。 CoReQAはGitHubのイシューと4つのプログラミング言語にまたがる176の人気のあるリポジトリからのコメントから構築された。我々は、現在最先端のプロプライエタリおよび長期コンテキストモデルがリポジトリレベルの問題に効果的に取り組むのに苦労していることを示します。
論文参考訳（メタデータ） (2025-01-07T00:24:07Z)
ContextModule: Improving Code Completion via Repository-level Contextual Information [11.459065573651348]
ContextModuleは生成されたコードの関連性と精度を改善する。我々は,実世界のコーディング環境における遅延制約を満たすために,インデックスキャッシングなどの性能最適化を実装した。
論文参考訳（メタデータ） (2024-12-11T03:15:49Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文参考訳（メタデータ） (2024-06-17T10:45:22Z)
On The Importance of Reasoning for Context Retrieval in Repository-Level Code Editing [82.96523584351314]
我々は、コンテキスト検索のタスクをリポジトリレベルのコード編集パイプラインの他のコンポーネントと分離する。我々は、推論が収集された文脈の精度を向上させるのに役立っているが、それでもその十分性を識別する能力は欠如していると結論づける。
論文参考訳（メタデータ） (2024-06-06T19:44:17Z)
How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文参考訳（メタデータ） (2024-06-03T15:20:06Z)
DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories [83.5195424237358]
既存のベンチマークは、現実世界のコードリポジトリと不整合である。我々はDevEvalという新しいベンチマークを提案し、これは3つの進歩がある。 DevEvalは117のリポジトリから1,874のサンプルを持ち、10の人気のあるドメインをカバーする。
論文参考訳（メタデータ） (2024-05-30T09:03:42Z)
Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository [4.767858874370881]
実世界のリポジトリ内でクラスレベルのコードを生成する際に,LLMを厳格に評価するためのベンチマークであるRepoClassBenchを紹介する。 RepoClassBenchには、リポジトリの選択からJava、Python、C#にまたがる"Natural Language to Class Generation"タスクが含まれている。 Retrieve-Repotools-Reflect (RRR)は,レポジトリレベルのコンテキストを反復的にナビゲートし,推論する静的解析ツールを備えた新しいアプローチである。
論文参考訳（メタデータ） (2024-04-22T03:52:54Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2023-03-22T13:54:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。