論文の概要: AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering
- arxiv url: http://arxiv.org/abs/2601.04620v1
- Date: Thu, 08 Jan 2026 05:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.059294
- Title: AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering
- Title(参考訳): AgentDevel: リリースエンジニアリングとしての自己進化型LDMエージェント
- Authors: Di Zhang,
- Abstract要約: AgentDevelは、現行のエージェントを反復的に実行するリリースエンジニアリングパイプラインである。
実行トレースから実装盲の症状レベルの品質信号を生成する。
主要な症状パターンを集約し、監査可能なエンジニアリング仕様を生成する。
- 参考スコア(独自算出の注目度): 8.201374511929538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in large language model (LLM) agents has largely focused on embedding self-improvement mechanisms inside the agent or searching over many concurrent variants. While these approaches can raise aggregate scores, they often yield unstable and hard-to-audit improvement trajectories, making it difficult to guarantee non-regression or to reason about failures across versions. We reframe agent improvement as \textbf{release engineering}: agents are treated as shippable artifacts, and improvement is externalized into a regression-aware release pipeline. We introduce \textbf{AgentDevel}, a release engineering pipeline that iteratively runs the current agent, produces implementation-blind, symptom-level quality signals from execution traces, synthesizes a single release candidate (RC) via executable diagnosis, and promotes it under flip-centered gating. AgentDevel features three core designs: (i) an implementation-blind LLM critic that characterizes failure appearances without accessing agent internals, (ii) script-based executable diagnosis that aggregates dominant symptom patterns and produces auditable engineering specifications, and (iii) flip-centered gating that prioritizes pass to fail regressions and fail to pass fixes as first-class evidence. Unlike population-based search or in-agent self-refinement, AgentDevel maintains a single canonical version line and emphasizes non-regression as a primary objective. Experiments on execution-heavy benchmarks demonstrate that AgentDevel yields stable improvements with significantly fewer regressions while producing reproducible, auditable artifacts. Overall, AgentDevel provides a practical development discipline for building, debugging, and releasing LLM agents as software development.
- Abstract(参考訳): 大規模言語モデル (LLM) エージェントの最近の進歩は、エージェント内に自己改善機構を組み込んだり、複数の同時変異を検索することに集中している。
これらのアプローチは総合的なスコアを上げることができるが、不安定で監査の難しい改善軌道を産み出すことが多く、非回帰を保証することや、バージョン間の失敗を推論することは困難である。
エージェントは出荷可能なアーティファクトとして扱われ、改善は回帰対応リリースパイプラインに外部化されます。
本稿では,現行エージェントを反復的に動作させるリリースエンジニアリングパイプラインである‘textbf{AgentDevel}を導入し,実装ブレンドで症状レベルの高い信号を実行トレースから生成し,実行可能な診断を通じて単一リリース候補(RC)を合成し,フリップ中心のゲーティングで促進する。
AgentDevelには3つのコアデザインがある。
(i)エージェント内部にアクセスせずに障害の出現を特徴付ける実装盲検のLCM批評家。
二 主要な症状パターンを集約し、監査可能な工学仕様を作成するスクリプトベースの実行可能な診断
三 優先するリグレッションの失敗を優先し、第一級の証拠として修正をパスしないフリップ中心のゲーティング。
人口ベースの検索やインエイジェント・セルフリファインメントとは異なり、AgentDevelは単一の標準バージョンラインを維持し、主要な目的として非回帰を強調している。
実行重ベンチマークの実験では、AgentDevelは再現性のある監査可能なアーティファクトを生成しながら、非常に少ないレグレッションで安定した改善をもたらすことが示されている。
全体として、AgentDevelはLLMエージェントをソフトウェア開発として構築、デバッグ、リリースするための実践的な開発規律を提供します。
関連論文リスト
- The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance [0.0]
現在のAIベースのテストジェネレータは、実行意識のフィードバックがないため、無効、冗長、あるいは実行不可能なテストを生成する。
本稿では,テスト生成エージェント,実行・分析エージェント,レビュー・最適化エージェントが協調してテストの生成,実行,解析,精査を行う,クローズドループの自己修正システムを提案する。
論文 参考訳(メタデータ) (2026-01-05T18:20:14Z) - Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。
Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T05:59:04Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。