論文の概要: SWE-Chain: Benchmarking Coding Agents on Chained Release-Level Package Upgrades
- arxiv url: http://arxiv.org/abs/2605.14415v1
- Date: Thu, 14 May 2026 06:04:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.650306
- Title: SWE-Chain: Benchmarking Coding Agents on Chained Release-Level Package Upgrades
- Title(参考訳): SWE-Chain: Chained Release-Level Package Upgradesにおけるコーディングエージェントのベンチマーク
- Authors: Man Ho Lam, Chaozheng Wang, Hange Liu, Jingyu Xiao, Haau-sing Li, Jen-tse Huang, Terry Yue Zhuo, Michael R. Lyu,
- Abstract要約: SWE-Chainは、チェーン化されたリリースレベルのパッケージアップグレードでエージェントを評価するためのベンチマークである。
9つの実際のPythonパッケージに12のアップグレードチェーンがあり、155バージョンの移行と1,660のアップグレード要件がある。
その結果、SWE-Chainは実現可能かつ差別的であり、既存のエージェントが既存の機能を壊さずに正しいアップグレードを行うのに苦労していることが明らかとなった。
- 参考スコア(独自算出の注目度): 39.982345937919725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coding agents powered by large language models are increasingly expected to perform realistic software maintenance tasks beyond isolated issue resolution. Existing benchmarks have shifted toward realistic software evolution, but they rarely capture continuous maintenance at the granularity of package releases, where changes are bundled, shipped, and inherited by subsequent versions. We present SWE-Chain, a benchmark for evaluating agents on chained release-level package upgrades, where each transition builds on the agent's prior codebase. To produce upgrade specifications, we design a divide-and-conquer synthesis pipeline that aligns release notes with code diffs for each version transition, ensuring the requirements are grounded in actual code changes, informative to agents, and feasible to implement. SWE-Chain contains 12 upgrade chains across 9 real Python packages, with 155 version transitions and 1,660 grounded upgrade requirements. Across nine frontier agent-model configurations, agents achieve an average of 44.8% resolving, 65.4% precision, and 50.2% F1 under the Build+Fix regime, with Claude-Opus-4.7 (Claude Code) leading at 60.8% resolving, 80.6% precision, and 68.5% F1. These results show that SWE-Chain is both feasible and discriminative, and reveal that current agents still struggle to make correct upgrades across chained package releases without breaking existing functionality.
- Abstract(参考訳): 大規模言語モデルを利用したコーディングエージェントは、分離されたイシュー解決を超えて、現実的なソフトウェアメンテナンスタスクを実行することがますます期待されている。
既存のベンチマークは、現実的なソフトウェア進化に向かっているが、変更がバンドルされ、出荷され、後続のバージョンによって継承されるパッケージリリースの粒度で継続的メンテナンスを捉えることは滅多にない。
SWE-Chainは、チェーン化されたリリースレベルのパッケージアップグレードにおいてエージェントを評価するベンチマークであり、各トランジションはエージェントの以前のコードベース上に構築される。
アップグレード仕様を作成するために、リリースノートを各バージョン移行のコード差分と整合させ、要求が実際のコード変更に基礎を置いていること、エージェントに通知すること、実装が可能である分割/コンカヤ合成パイプラインを設計する。
SWE-Chainには、9つの実際のPythonパッケージに12のアップグレードチェーンがあり、155バージョンの移行と1,660のアップグレード要件がある。
9つのフロンティアエージェントモデル構成の中で、エージェントは平均44.8%の解決、65.4%の精度、50.2%のF1をBuild+Fix体制下で達成し、Claude-Opus-4.7 (Claude Code)は60.8%の解決、80.6%の精度、68.5%のF1を導いた。
これらの結果から、SWE-Chainは実現可能かつ差別的であり、既存のエージェントが既存の機能を壊さずに、チェーンされたパッケージリリース全体にわたって正しいアップグレードを行うのに苦労していることが明らかとなった。
関連論文リスト
- Orchard: An Open-Source Agentic Modeling Framework [119.63254821764379]
スケーラブルなエージェントモデリングのためのオープンソースのフレームワークOrchardを紹介します。
Orchard Envは、サンドボックスライフサイクル管理のための再利用可能なプリミティブを提供する軽量環境サービスである。
Orchard Envの上に、3つのエージェントモデリングレシピを構築します。
論文 参考訳(メタデータ) (2026-05-14T16:35:12Z) - AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation [11.272830796781925]
8つのモデルバックエンドから60個のSWEベンチ検証タスクの2,614個のOpenHandsトラジェクトリを評価した。
このサブセットで通過する軌道の中で、10.7%はラッキーパスと呼ばれる振る舞いを示す。
本稿では,SWEエージェント軌道のプロセスレベル評価フレームワークであるAgentLensを紹介する。
論文 参考訳(メタデータ) (2026-05-13T03:00:57Z) - WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation [88.10947115397971]
この研究でWildClawBenchは、6つのテーマのカテゴリにまたがる60の人間によるバイリンガルなマルチモーダルタスクのネイティブランタイムベンチマークである。
各タスクは、約8分間のウォールクロック時間と20以上のツールコールで実行されます。
グラディングはハイブリッドであり、決定論的ルールベースのチェック、副作用の環境状態監査、意味的検証のためのLLM/VLM判定を組み合わせている。
論文 参考訳(メタデータ) (2026-05-11T17:49:43Z) - Governed Capability Evolution for Embodied Agents: Safe Upgrade, Compatibility Checking, and Runtime Rollback for Embodied Capability Modules [14.412476605788482]
エージェント自体を書き換えるのではなく、実行可能な機能を更新することで、時間とともに改善されることが期待されている。
ライフサイクルを意識したアップグレードフレームワークを提案し、新しい機能バージョンはすべて、管理されたデプロイメント候補として扱われる。
論文 参考訳(メタデータ) (2026-04-09T10:18:51Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks [55.76734816061826]
我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。
我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。
11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
論文 参考訳(メタデータ) (2026-03-25T19:26:44Z) - RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository [52.98970048197381]
RepoGenesisは、リポジトリレベルのエンドツーエンドWebマイクロサービス生成のための、最初の多言語ベンチマークである。
18のドメインと11のフレームワークに106のリポジトリ(60のPython、46のJava)があり、1,258のAPIエンドポイントと2,335のテストケースが検証されている。
その結果、高いAC(最大73.91%)とDSR(最大100%)にもかかわらず、最高のパフォーマンスのシステムはPythonで23.67%のPass@1、Javaで21.45%しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2026-01-20T13:19:20Z) - SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios [6.776894728701934]
AIコーディングエージェントの既存のベンチマークでは、バグの修正や小さな機能の実装など、独立した単一課題のタスクに重点を置いている。
SWE-EVO(SWE-EVO)は、長期的ソフトウェア進化課題におけるエージェントの評価を行うベンチマークである。
ツールには48の進化タスクが含まれており、エージェントは平均21ファイルにまたがる複数ステップの修正を行う必要がある。
論文 参考訳(メタデータ) (2025-12-20T19:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。