論文の概要: SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration
- arxiv url: http://arxiv.org/abs/2603.03823v1
- Date: Wed, 04 Mar 2026 08:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.230659
- Title: SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration
- Title(参考訳): SWE-CI: 継続的インテグレーションによるコードベース維持におけるエージェント機能の評価
- Authors: Jialong Chen, Xander Xu, Hu Wei, Chuan Chen, Bing Zhao,
- Abstract要約: SWE-CIは継続的インテグレーションループ上に構築された最初のリポジトリレベルのベンチマークである。
コード生成のための評価パラダイムを静的・短期的テキスト機能的正当性から動的・長期的テキスト保守性へシフトすることを目的としている。
- 参考スコア(独自算出の注目度): 7.89414068452646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM)-powered agents have demonstrated strong capabilities in automating software engineering tasks such as static bug fixing, as evidenced by benchmarks like SWE-bench. However, in the real world, the development of mature software is typically predicated on complex requirement changes and long-term feature iterations -- a process that static, one-shot repair paradigms fail to capture. To bridge this gap, we propose \textbf{SWE-CI}, the first repository-level benchmark built upon the Continuous Integration loop, aiming to shift the evaluation paradigm for code generation from static, short-term \textit{functional correctness} toward dynamic, long-term \textit{maintainability}. The benchmark comprises 100 tasks, each corresponding on average to an evolution history spanning 233 days and 71 consecutive commits in a real-world code repository. SWE-CI requires agents to systematically resolve these tasks through dozens of rounds of analysis and coding iterations. SWE-CI provides valuable insights into how well agents can sustain code quality throughout long-term evolution.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したエージェントは、SWE-benchのようなベンチマークによって証明されているように、静的バグ修正のようなソフトウェアエンジニアリングタスクを自動化する強力な能力を示している。
しかし、現実の世界では、成熟したソフトウェアの開発は通常、複雑な要求の変化と長期的な機能の反復を前提としています。
このギャップを埋めるために,継続的インテグレーションループ上に構築された最初のリポジトリレベルのベンチマークである \textbf{SWE-CI} を提案する。
ベンチマークは100のタスクで構成され、それぞれのタスクは、現実世界のコードリポジトリにおいて、平均233日と71連続コミットの進化履歴に対応する。
SWE-CIでは、エージェントが何十回もの分析とコーディングを繰り返し、これらのタスクを体系的に解決する必要がある。
SWE-CIは、長期的な進化を通じて、エージェントがコード品質を維持する方法について、貴重な洞察を提供する。
関連論文リスト
- LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces [65.11019654023978]
LongCLI-Benchは、長期にわたる現実的なタスクにまたがるエージェント能力を評価するために設計されたベンチマークである。
私たちは、1000以上のコンピュータサイエンスの課題と現実世界のタスクから、20の高品質で長い水平タスクをキュレートしました。
実験によると、最先端のエージェントでさえLongCLI-Benchの20%未満のパスレートを達成する。
論文 参考訳(メタデータ) (2026-02-15T23:12:57Z) - FeatureBench: Benchmarking Agentic Coding for Complex Feature Development [42.26354337364403]
FeatureBenchは、エンドツーエンドのフィーチャ指向ソフトウェア開発におけるエージェントコーディングのパフォーマンスを評価するために設計されたベンチマークである。
実行ベースの評価プロトコルと、人間の最小限の労力でコードリポジトリからタスクを自動的に引き出す、スケーラブルなテスト駆動メソッドが組み込まれている。
実証的な評価により、クロード4.5オプスのような最先端のエージェントモデルがSWEベンチで74.4%の解決率を達成することが明らかになった。
論文 参考訳(メタデータ) (2026-02-11T16:06:32Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - From Completion to Editing: Unlocking Context-Aware Code Infilling via Search-and-Replace Instruction Tuning [81.97788535387286]
本稿では,エージェントによる検証・編集機構を統一された単一パス推論プロセスに内部化するフレームワークを提案する。
最小限のデータで、SRI-Coderは、ChatモデルがBaseモデルの完了性能を上回ることができる。
FIMスタイルのチューニングとは異なり、SRIは一般的なコーディング能力を保持し、標準のFIMに匹敵する推論遅延を維持する。
論文 参考訳(メタデータ) (2026-01-19T20:33:53Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents [79.29376673236142]
既存のベンチマークは、完全なソフトウェアシステムを構築するのに必要な長期的能力の厳格な評価に失敗する。
符号化エージェントの長期リポジトリ生成能力を評価するために設計されたベンチマークであるNL2Repo Benchを提案する。
論文 参考訳(メタデータ) (2025-12-14T15:12:13Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes [33.80591142965565]
CODE2BENCHは、実世界のGitHubリポジトリから、堅牢で汚染に強いベンチマークを動的に構築するためのパイプラインである。
特に、CODE2BENCHは、(1) トレーニングデータの汚染を最小限に抑えるために、最近のコードの周期的取り込みによって達成される自動ダイナミズム、(2) 依存レベルの制御されたベンチマークインスタンスへの関数の構造化可能なスコープグラフベースの依存性分析、(3) 厳密なテストスイートの自動合成のためのプロパティベーステスト(PBT)の3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-08-10T05:06:36Z) - SWE-Bench-CL: Continual Learning for Coding Agents [0.0]
SWE-Bench-CLは、人間検証されたSWE-Bench検証データセット上に構築された、新しい連続学習ベンチマークである。
GitHubのイシューを、自然リポジトリの進化を反映した時系列順序に整理することで、SWE-Bench-CLは、エージェントのエクスペリエンスを蓄積する能力を直接評価できる。
論文 参考訳(メタデータ) (2025-06-13T07:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。