論文の概要: ATime-Consistent Benchmark for Repository-Level Software Engineering Evaluation
- arxiv url: http://arxiv.org/abs/2603.26137v1
- Date: Fri, 27 Mar 2026 07:46:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.388906
- Title: ATime-Consistent Benchmark for Repository-Level Software Engineering Evaluation
- Title(参考訳): リポジトリレベルのソフトウェアエンジニアリング評価のための時間一貫性ベンチマーク
- Authors: Xianpeng, Sun, Haonan Sun, Tian Yu, Sheng Ma, Qincheng Zhang, Lifei Rao, Chen Tian,
- Abstract要約: リポジトリを意識したソフトウェアエンジニアリングシステムの評価は、しばしば、合成タスク設計、迅速なリーク、リポジトリ知識と将来のコード変更の間の時間的汚染によって構築される。
本稿では,リポジトリをT0時にスナップショット化し,T0以前に利用可能なアーティファクトのみを使用してリポジトリ由来のコード知識を構築し,プルリクエストから派生したエンジニアリングタスクを将来的にマージした上で評価する,時間一貫性のあるベンチマーク手法を提案する。
- 参考スコア(独自算出の注目度): 6.203338195653566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation of repository-aware software engineering systems is often confounded by synthetic task design, prompt leakage, and temporal contamination between repository knowledge and future code changes. We present a time-consistent benchmark methodology that snapshots a repository at time T0, constructs repository-derived code knowledge using only artifacts available before T0, and evaluates on engineering tasks derived from pull requests merged in the future interval (T0, T1]. Each historical pull request is transformed into a natural-language task through an LLM-assisted prompt-generation pipeline, and the benchmark is formalized as a matched A/B comparison in which the same software engineering agent is evaluated with and without repository-derived code knowledge while all other variables are held constant. We also report a baseline characterization study on two open-source repositories, DragonFly and React, using three Claude-family models and four prompt granularities. Across both repositories, file-level F1 increases monotonically from minimal to guided prompts, reaching 0.8081 on DragonFly and 0.8078 on React for the strongest tested model. These results show that prompt construction is a first-order benchmark variable. More broadly, the benchmark highlights that temporal consistency and prompt control are core validity requirements for repository-aware software engineering evaluation.
- Abstract(参考訳): リポジトリを意識したソフトウェアエンジニアリングシステムの評価は、しばしば、合成タスク設計、迅速なリーク、リポジトリ知識と将来のコード変更の間の時間的汚染によって構築される。
本稿では、T0でリポジトリをスナップショット化し、T0以前に利用可能なアーティファクトのみを使用してリポジトリ由来のコード知識を構築し、将来の間隔でマージされたプルリクエストから派生したエンジニアリングタスク(T0,T1]を評価するための時間一貫性ベンチマーク手法を提案する。
各歴史的プルリクエストは、LLM支援の即時生成パイプラインを介して自然言語タスクに変換され、このベンチマークは、同じソフトウェアエンジニアリングエージェントをリポジトリ由来のコード知識で評価し、他のすべての変数を一定に保持するマッチしたA/B比較として形式化される。
また,DragonFlyとReactの2つのオープンソースリポジトリについて,3つのClaude- Familyモデルと4つの迅速な粒度を用いたベースライン特性解析を行った。
どちらのリポジトリでも、ファイルレベルのF1は最小限からガイドプロンプトまで単調に増加し、DragonFlyでは0.8081、Reactでは0.8078に達した。
これらの結果は、プロンプト構成は1次ベンチマーク変数であることを示している。
より広範に、このベンチマークは、時間的一貫性と迅速な制御が、リポジトリ対応のソフトウェアエンジニアリング評価における中核的な妥当性要件であることを強調している。
関連論文リスト
- ReCUBE: Evaluating Repository-Level Context Utilization in Code Generation [7.907933839674293]
大規模言語モデル(LLM)は、エージェント探索またはフルコンテキスト生成を通じて大規模で動作する有能なコーディングアシスタントとして登場した。
ReCUBEは,LLMが残されているすべてのソースファイル,依存関係仕様,ドキュメントをコンテキストの唯一のソースとして使用して,実世界のリポジトリ内でマスクされたファイルを再構築するベンチマークである。
本稿では,エージェントフレームワークに統合可能な依存グラフベースのツールセットであるCaller-Centric Exploration (CCE)ツールキットを提案する。
論文 参考訳(メタデータ) (2026-03-26T08:04:15Z) - Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining [66.89012795621349]
大規模言語モデル(LLM)は、複雑なソフトウェア工学に必要な、深く、長期にわたる推論に苦しむことが多い。
本稿では,再構築による理解という,新しいパラダイムを提案する。
マルチエージェントシミュレーションを用いて潜在エージェント軌道を合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-11T09:23:20Z) - CktEvo: Repository-Level RTL Code Benchmark for Design Evolution [7.09459001862514]
本稿では、レポレベルのRTL進化のためのベンチマークおよび参照フレームワークであるCktEvoを紹介する。
以前のベンチマークとは異なり、我々のベンチマークは、PPAがファイル間の依存関係から現れる完全なIPコアをターゲットにしています。
初期リポジトリが与えられたら、PPAを改善しながら機能的な動作を保存する編集を生成します。
実験の結果, 参照フレームワークは人間のインタラクションを伴わずに, PPAの改善を実現していることがわかった。
論文 参考訳(メタデータ) (2026-02-10T02:46:15Z) - InfoSynth: Information-Guided Benchmark Synthesis for LLMs [69.80981631587501]
大規模言語モデル (LLM) は推論やコード生成において大きな進歩を見せている。
従来のベンチマーク作成は人手による作業に依存しています。
この作業では、推論ベンチマークの自動生成と評価のための新しいフレームワークであるInfo Synthを紹介した。
論文 参考訳(メタデータ) (2026-01-02T05:26:27Z) - ExecRepoBench: Multi-level Executable Code Completion Evaluation [45.963424627710765]
本稿では,リポジトリレベルのベンチマークであるExecRepoBenchの作成を通じて,ソフトウェア開発におけるコード補完を強化する新しいフレームワークを紹介する。
本稿では,抽象構文木をベースとした多段階文法ベースの補完手法を提案し,様々な論理単位のコードフラグメントをマスキングする。
次に,Repo-Instruct の 7B パラメータでオープンソースの LLM を微調整し,強力なコード補完ベースラインモデル Qwen2.5-Coder-Instruct-C を生成する。
論文 参考訳(メタデータ) (2024-12-16T17:14:35Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。
提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。
Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - R2C2-Coder: Enhancing and Benchmarking Real-world Repository-level Code Completion Abilities of Code Large Language Models [62.20537000942005]
我々は,R2C2-Coderを提案し,大規模言語モデルの実世界のリポジトリレベルのコード補完能力を向上し,ベンチマークする。
R2C2-Coderには、コードプロンプトコンストラクションメソッドR2C2-Enhanceと、よく設計されたベンチマークR2C2-Benchが含まれている。
論文 参考訳(メタデータ) (2024-06-03T14:24:29Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。