論文の概要: ReCUBE: Evaluating Repository-Level Context Utilization in Code Generation
- arxiv url: http://arxiv.org/abs/2603.25770v1
- Date: Thu, 26 Mar 2026 08:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.202158
- Title: ReCUBE: Evaluating Repository-Level Context Utilization in Code Generation
- Title(参考訳): ReCUBE:コード生成におけるリポジトリレベルのコンテキスト利用の評価
- Authors: Jiseung Hong, Benjamin G. Ascoli, Jinho D. Choi,
- Abstract要約: 大規模言語モデル(LLM)は、エージェント探索またはフルコンテキスト生成を通じて大規模で動作する有能なコーディングアシスタントとして登場した。
ReCUBEは,LLMが残されているすべてのソースファイル,依存関係仕様,ドキュメントをコンテキストの唯一のソースとして使用して,実世界のリポジトリ内でマスクされたファイルを再構築するベンチマークである。
本稿では,エージェントフレームワークに統合可能な依存グラフベースのツールセットであるCaller-Centric Exploration (CCE)ツールキットを提案する。
- 参考スコア(独自算出の注目度): 7.907933839674293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have recently emerged as capable coding assistants that operate over large codebases through either agentic exploration or full-context generation. Existing benchmarks capture a broad range of coding capabilities, such as resolving GitHub issues, but none of them directly isolate and measure how effectively LLMs leverage repository-level context during code generation. To address this, we introduce ReCUBE, a benchmark in which LLMs reconstruct a masked file within a real-world repository, using all remaining source files, dependency specifications, and documentation as their only source of context. ReCUBE evaluates reconstructed code with usage-aware test cases that simulate both internal module logic and external cross-file integration, reflecting real-world software usage patterns. We further propose the Caller-Centric Exploration (CCE) toolkit, a set of dependency graph-based tools that can be integrated into agentic frameworks to guide agents toward the most relevant caller files during repository exploration. Experiments across eight models in four settings show that repository-level context utilization remains highly challenging even for state-of-the-art models, with GPT-5 achieving only 37.57% strict pass rate in the full-context setting. Agents augmented with our CCE toolkit consistently outperform all baselines across all evaluated models, with improvements of up to 7.56% in strict pass rate. We release our benchmark, code, and evaluation framework as open source for the NLP research community.
- Abstract(参考訳): 大規模言語モデル(LLM)は、エージェント探索またはフルコンテキスト生成を通じて大規模なコードベース上で動作する有能なコーディングアシスタントとして最近登場した。
既存のベンチマークでは、GitHubの問題の解決など、幅広いコーディング機能をキャプチャしているが、LLMがコード生成中にリポジトリレベルのコンテキストをどのように効果的に活用するかを直接的に分離し、測定することはない。
これを解決するために,LLMが残されているすべてのソースファイル,依存関係仕様,ドキュメントをコンテキストの唯一のソースとして使用して,実世界のリポジトリ内でマスクされたファイルを再構築するベンチマークであるReCUBEを紹介した。
ReCUBEは、実際のソフトウェア使用パターンを反映して、内部モジュールロジックと外部ファイル統合の両方をシミュレートする、使用を意識したテストケースで再構築されたコードを評価する。
さらに,Caller-Centric Exploration (CCE)ツールキットを提案する。Caller-Centric Exploration (CCE)ツールキットは,リポジトリ探索中にエージェントを最も関連性の高い呼び出しファイルへ誘導するために,エージェントフレームワークに統合可能な依存性グラフベースのツールセットである。
4つの設定で8つのモデルにまたがる実験によると、リポジトリレベルのコンテキスト利用は最先端のモデルでも非常に困難であり、GPT-5はフルコンテキスト設定で37.57%の厳格なパス率しか達成していない。
CCEツールキットで強化されたエージェントは、すべての評価されたモデルで一貫してすべてのベースラインを上回り、厳格なパスレートで7.56%改善しました。
NLP研究コミュニティのためのオープンソースとして、ベンチマーク、コード、評価フレームワークをリリースします。
関連論文リスト
- ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。
提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。
Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository [4.767858874370881]
実世界のリポジトリ内でクラスレベルのコードを生成する際に,LLMを厳格に評価するためのベンチマークであるRepoClassBenchを紹介する。
RepoClassBenchには、リポジトリの選択からJava、Python、C#にまたがる"Natural Language to Class Generation"タスクが含まれている。
Retrieve-Repotools-Reflect (RRR)は,レポジトリレベルのコンテキストを反復的にナビゲートし,推論する静的解析ツールを備えた新しいアプローチである。
論文 参考訳(メタデータ) (2024-04-22T03:52:54Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。