論文の概要: SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks
- arxiv url: http://arxiv.org/abs/2603.24755v1
- Date: Wed, 25 Mar 2026 19:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.962336
- Title: SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks
- Title(参考訳): SlopCodeBench: コーディングエージェントが長時間の反復的なタスクでどのように劣化するかのベンチマーク
- Authors: Gabriel Orlanski, Devjeet Roy, Alexander Yun, Changho Shin, Alex Gu, Albert Ge, Dyah Adila, Frederic Sala, Aws Albarghouthi,
- Abstract要約: 我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。
我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。
11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
- 参考スコア(独自算出の注目度): 55.76734816061826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software development is iterative, yet agentic coding benchmarks overwhelmingly evaluate single-shot solutions against complete specifications. Code can pass the test suite but become progressively harder to extend. Recent iterative benchmarks attempt to close this gap, but constrain the agent's design decisions too tightly to faithfully measure how code quality shapes future extensions. We introduce SlopCodeBench, a language-agnostic benchmark comprising 20 problems and 93 checkpoints, in which agents repeatedly extend their own prior solutions under evolving specifications that force architectural decisions without prescribing internal structure. We track two trajectory-level quality signals: verbosity, the fraction of redundant or duplicated code, and structural erosion, the share of complexity mass concentrated in high-complexity functions. No agent solves any problem end-to-end across 11 models; the highest checkpoint solve rate is 17.2%. Quality degrades steadily: erosion rises in 80% of trajectories and verbosity in 89.8%. Against 48 open-source Python repositories, agent code is 2.2x more verbose and markedly more eroded. Tracking 20 of those repositories over time shows that human code stays flat, while agent code deteriorates with each iteration. A prompt-intervention study shows that initial quality can be improved, but it does not halt degradation. These results demonstrate that pass-rate benchmarks systematically undermeasure extension robustness, and that current agents lack the design discipline iterative software development demands.
- Abstract(参考訳): ソフトウェア開発は反復的ですが、エージェントによるコーディングベンチマークは、完全な仕様に対してシングルショットのソリューションを圧倒的に評価します。
コードはテストスイートをパスできるが、徐々に拡張が困難になる。
最近の反復ベンチマークは、このギャップを埋めようとしているが、コード品質が将来の拡張をどのように形成するかを忠実に測定するには、エージェントの設計決定を厳しく制約しすぎている。
我々は,20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介した。
我々は、冗長性、重複コードの割合、構造的浸食、複雑度関数に集中した複雑性質量のシェアという2つの軌道レベルの品質信号を追跡する。
11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
浸食は軌道の80%で増加し、冗長度は89.8%である。
48のオープンソースPythonリポジトリに対して、エージェントコードは2.2倍冗長であり、明らかに浸食されている。
時間とともに20のリポジトリを追跡すると、ヒューマンコードがフラットのままであり、エージェントコードが各イテレーションで劣化していることがわかる。
即時干渉による研究は、初期品質は改善できるが、劣化を止めることはないことを示している。
これらの結果は、パスレートベンチマークが拡張堅牢性を体系的に過小評価していること、そして現在のエージェントは、反復的ソフトウェア開発の要求に対して設計の規律を欠いていることを示している。
関連論文リスト
- ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development [49.63491095660809]
ProjDevBenchはエンドツーエンドのベンチマークで、コーディングエージェントにプロジェクト要件を提供し、その結果のリポジトリを評価する。
概念指向タスクと実世界のアプリケーションシナリオの両方をカバーし、8つのカテゴリにまたがる20のプログラミング問題をキュレートします。
エージェントは基本的な機能を扱うが、複雑なシステム設計、時間最適化、リソース管理に苦労する。
論文 参考訳(メタデータ) (2026-02-02T05:17:23Z) - SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios [6.776894728701934]
AIコーディングエージェントの既存のベンチマークでは、バグの修正や小さな機能の実装など、独立した単一課題のタスクに重点を置いている。
SWE-EVO(SWE-EVO)は、長期的ソフトウェア進化課題におけるエージェントの評価を行うベンチマークである。
ツールには48の進化タスクが含まれており、エージェントは平均21ファイルにまたがる複数ステップの修正を行う必要がある。
論文 参考訳(メタデータ) (2025-12-20T19:08:15Z) - NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents [79.29376673236142]
既存のベンチマークは、完全なソフトウェアシステムを構築するのに必要な長期的能力の厳格な評価に失敗する。
符号化エージェントの長期リポジトリ生成能力を評価するために設計されたベンチマークであるNL2Repo Benchを提案する。
論文 参考訳(メタデータ) (2025-12-14T15:12:13Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。
一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。
ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。
一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文 参考訳(メタデータ) (2024-10-16T11:33:57Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。