論文の概要: EvoClaw: Evaluating AI Agents on Continuous Software Evolution
- arxiv url: http://arxiv.org/abs/2603.13428v1
- Date: Fri, 13 Mar 2026 03:20:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.195297
- Title: EvoClaw: Evaluating AI Agents on Continuous Software Evolution
- Title(参考訳): EvoClaw: 継続的ソフトウェア進化におけるAIエージェントの評価
- Authors: Gangda Deng, Zhaoling Chen, Zhongming Yu, Haoyang Fan, Yuhong Liu, Yuxin Yang, Dhruv Parikh, Rajgopal Kannan, Le Cong, Mengdi Wang, Qian Zhang, Viktor Prasanna, Xiangru Tang, Xingyao Wang,
- Abstract要約: ノイズの多いコミットログから検証可能なマイルストーンDAGを再構築するエージェントパイプラインであるDeepCommitを紹介する。
これらの実行可能なシーケンスは、エージェントがシステムの完全性を維持し、エラーの蓄積を制限する必要がある新しいベンチマークであるEvoClawを可能にする。
- 参考スコア(独自算出の注目度): 47.49468375065129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With AI agents increasingly deployed as long-running systems, it becomes essential to autonomously construct and continuously evolve customized software to enable interaction within dynamic environments. Yet, existing benchmarks evaluate agents on isolated, one-off coding tasks, neglecting the temporal dependencies and technical debt inherent in real-world software evolution. To bridge this gap, we introduce DeepCommit, an agentic pipeline that reconstructs verifiable Milestone DAGs from noisy commit logs, where milestones are defined as semantically cohesive development goals. These executable sequences enable EvoClaw, a novel benchmark that requires agents to sustain system integrity and limit error accumulation, dimensions of long-term software evolution largely missing from current benchmarks. Our evaluation of 12 frontier models across 4 agent frameworks reveals a critical vulnerability: overall performance scores drop significantly from $>$80% on isolated tasks to at most 38% in continuous settings, exposing agents' profound struggle with long-term maintenance and error propagation.
- Abstract(参考訳): AIエージェントが長時間稼働するシステムとしてますますデプロイされるようになると、動的環境内でのインタラクションを可能にするために、自律的に構築され、継続的に進化するソフトウェアが不可欠になる。
しかし、既存のベンチマークでは、独立したワンオフコーディングタスクのエージェントを評価し、実際のソフトウェア進化に固有の時間的依存関係と技術的負債を無視している。
ノイズの多いコミットログから検証可能なマイルストーンDAGを再構築するエージェントパイプラインであるDeepCommitを紹介します。
これらの実行可能なシーケンスにより、EvoClawは、エージェントがシステムの完全性を維持し、エラーの蓄積を制限することを要求する新しいベンチマークである。
4つのエージェントフレームワークにわたる12のフロンティアモデルを評価すると、重大な脆弱性が明らかになる。パフォーマンススコアは、分離されたタスクの80%以上から、最低でも38%の継続的設定に大幅に低下する。
関連論文リスト
- AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents [26.380991138110925]
AutoAgentは、認知の進化、オンザフライでのコンテキスト決定、弾力性のあるメモリオーケストレーションに基づく、自己進化型のマルチエージェントフレームワークである。
各エージェントは、ツール、自己能力、同僚の専門知識、タスク知識に関する構造化されたプロンプトレベルの認知を維持する。
AutoAgentは、静的およびメモリ拡張ベースラインに対するタスク成功、ツール使用効率、共同ロバスト性を一貫して改善する。
論文 参考訳(メタデータ) (2026-03-10T14:23:49Z) - SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration [7.89414068452646]
SWE-CIは継続的インテグレーションループ上に構築された最初のリポジトリレベルのベンチマークである。
コード生成のための評価パラダイムを静的・短期的テキスト機能的正当性から動的・長期的テキスト保守性へシフトすることを目的としている。
論文 参考訳(メタデータ) (2026-03-04T08:20:25Z) - LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces [65.11019654023978]
LongCLI-Benchは、長期にわたる現実的なタスクにまたがるエージェント能力を評価するために設計されたベンチマークである。
私たちは、1000以上のコンピュータサイエンスの課題と現実世界のタスクから、20の高品質で長い水平タスクをキュレートしました。
実験によると、最先端のエージェントでさえLongCLI-Benchの20%未満のパスレートを達成する。
論文 参考訳(メタデータ) (2026-02-15T23:12:57Z) - AIvilization v0: Toward Large-Scale Artificial Social Simulation with a Unified Agent Architecture and Adaptive Agent Profiles [15.355738327147558]
AIvilization v0は、リソース制限されたサンドボックス経済とLLMエージェントアーキテクチャを結合した、一般公開された大規模な人工社会である。
この環境は、生理的生存コスト、置換不可能な多層生産、AMMベースの価格体系、ゲート型教育占領システムを統合している。
我々は、鍵となるスタイル化された事実を再現し、教育やアクセス制限によって構築された富の成層化を生み出す安定した市場を見出した。
論文 参考訳(メタデータ) (2026-02-11T02:18:15Z) - daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently [35.39097522391409]
大規模言語モデル(LLM)は短期的なタスクで優れており、それらを長期のエージェント合成に拡張することは依然として困難である。
本稿では,PRチェーンから構造化監視を体系的にマイニングするdaVinci-Agencyを提案する。
DaVinci-AgencyのPR基底構造は、本質的には、永続的なゴールサイクルの振る舞いを教えるのに不可欠な因果依存性と反復的な洗練を保っている。
論文 参考訳(メタデータ) (2026-02-02T13:23:39Z) - EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。
しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。
実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文 参考訳(メタデータ) (2026-01-29T11:33:49Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents [79.29376673236142]
既存のベンチマークは、完全なソフトウェアシステムを構築するのに必要な長期的能力の厳格な評価に失敗する。
符号化エージェントの長期リポジトリ生成能力を評価するために設計されたベンチマークであるNL2Repo Benchを提案する。
論文 参考訳(メタデータ) (2025-12-14T15:12:13Z) - Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.70211451226835]
大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。
我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。
Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
論文 参考訳(メタデータ) (2025-11-20T05:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。