論文の概要: VeRO: An Evaluation Harness for Agents to Optimize Agents
- arxiv url: http://arxiv.org/abs/2602.22480v1
- Date: Wed, 25 Feb 2026 23:40:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.446569
- Title: VeRO: An Evaluation Harness for Agents to Optimize Agents
- Title(参考訳): VeRO: エージェントを最適化するエージェント評価のハーネス
- Authors: Varun Ursekar, Apaar Shanker, Veronica Chatrath, Yuan, Xue, Sam Denton,
- Abstract要約: 我々は、バージョン管理されたエージェントスナップショット、予算管理された評価、構造化された実行トレースを備えた再現可能な評価手法であるVERO(Versioning, Rewards, Observations)を紹介する。
本研究では,ターゲットエージェントの比較実験を行い,どの修正がターゲットエージェントの性能を確実に向上させるか分析する。
- 参考スコア(独自算出の注目度): 5.227525836910522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An important emerging application of coding agents is agent optimization: the iterative improvement of a target agent through edit-execute-evaluate cycles. Despite its relevance, the community lacks a systematic understanding of coding agent performance on this task. Agent optimization differs fundamentally from conventional software engineering: the target agent interleaves deterministic code with stochastic LLM completions, requiring structured capture of both intermediate reasoning and downstream execution outcomes. To address these challenges, we introduce VERO (Versioning, Rewards, and Observations), which provides (1) a reproducible evaluation harness with versioned agent snapshots, budget-controlled evaluation, and structured execution traces, and (2) a benchmark suite of target agents and tasks with reference evaluation procedures. Using VERO, we conduct an empirical study comparing optimizer configurations across tasks and analyzing which modifications reliably improve target agent performance. We release VERO to support research on agent optimization as a core capability for coding agents.
- Abstract(参考訳): コーディングエージェントの重要な応用はエージェント最適化である: 編集・実行・評価サイクルによるターゲットエージェントの反復的改善である。
その関連性にもかかわらず、コミュニティは、このタスクにおけるコーディングエージェントのパフォーマンスに関する体系的な理解を欠いている。
エージェント最適化は従来のソフトウェア工学とは根本的に異なり、対象エージェントは決定論的コードと確率的LLM完了をインターリーブし、中間的推論と下流実行結果の両方を構造化して取得する必要がある。
これらの課題に対処するため, VERO (Versioning, Rewards, Observations) を導入し, 1) バージョン管理されたエージェントスナップショット, 予算管理された評価, 構造化された実行トレースを用いた再現可能な評価手法, (2) 目標エージェントとタスクのベンチマークスイートと参照評価手順を提供する。
VEROを用いてタスク間のオプティマイザ構成を比較し、どの修正がターゲットエージェントの性能を確実に改善するかを分析する。
我々は,符号化エージェントのコア機能として,エージェント最適化の研究を支援するためにVEROをリリースした。
関連論文リスト
- AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。
Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T05:59:04Z) - Agentic Predictor: Performance Prediction for Agentic Workflows via Multi-View Encoding [56.565200973244146]
Agentic Predictorは、効率的なエージェントワークフロー評価のための軽量な予測器である。
Agentic Predictorはタスク成功率の近似を学ぶことで、最適なエージェントワークフロー構成の迅速かつ正確な選択を可能にする。
論文 参考訳(メタデータ) (2025-05-26T09:46:50Z) - Towards Adaptive Software Agents for Debugging [0.40964539027092917]
本稿では,エージェントの数とその役割を動的に決定する適応型エージェント設計を提案する。
最初の評価では、適応設計では、生成されるエージェントの数はバグのあるコードの複雑さに依存することが示されている。
治療効果は, ワンショットプロンプトよりも平均11%改善した。
論文 参考訳(メタデータ) (2025-04-25T12:48:08Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。