論文の概要: RoboPhD: Evolving Diverse Complex Agents Under Tight Evaluation Budgets
- arxiv url: http://arxiv.org/abs/2604.04347v1
- Date: Mon, 06 Apr 2026 01:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.056896
- Title: RoboPhD: Evolving Diverse Complex Agents Under Tight Evaluation Budgets
- Title(参考訳): RoboPhD: 厳格な評価予算下での異種複雑なエージェントの進化
- Authors: Andrew Borthwick, Stephen Ash, Anthony Galczak,
- Abstract要約: 本稿では,エロトーナメントの選択,EPA,グリーディヒルクライミングという3つの最適化パラダイムの体系的比較について述べる。
RoboPhDは、トレーニングとバリデーションの予算を分割する代わりに、トレーニングデータにEloコンペティションを使用してエージェントを同時に評価し、進化を促進する。
我々は、さまざまな複雑なエージェントを進化させるためのシンプルなOptimation_anything() APIを使って、MITライセンスの下で汎用ツールキットとしてRoboPhDをリリースした。
- 参考スコア(独自算出の注目度): 0.2126018197183873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 2026 has brought an explosion of interest in LLM-guided evolution of agentic artifacts, with systems like GEPA and Autoresearch demonstrating that LLMs can iteratively improve prompts, code, and agent architectures across diverse domains. As adoption accelerates, a central question emerges: given the same information, the same seed agent, and the same objective, which optimization algorithm yields the best results under the same evaluation budget? This question becomes critical when evaluations are expensive, such as when they require human judgment or multiple LLM calls. We present the first systematic comparison of three optimization paradigms -- Elo tournament selection (RoboPhD), Pareto-based selection (GEPA), and greedy hill-climbing (Autoresearch) -- across four benchmarks spanning abstract reasoning, cloud scheduling, SQL generation, and financial QA, all under a fixed budget of 1,500 evaluations. RoboPhD introduces validation-free evolution: instead of splitting the budget between training and validation, it uses Elo competition on training data to simultaneously evaluate agents and drive evolution. All three systems receive seed agents with diagnostic print() statements that evolution can grow, enabling self-instrumenting agents that develop increasingly informative diagnostics for the benefit of their evolutionary successors. Using a single default configuration, RoboPhD outperforms both GEPA and Autoresearch on three of four benchmarks, losing only on the simplest task, where the winning solution (from our Autoresearch adaptation) required under 90 lines of code. On ARC-AGI, RoboPhD evolves a 22-line seed agent into a 1,013-line multi-strategy system, improving accuracy from 27.8% to 65.8% using Gemini 3.1 Flash Lite as the solver. We release RoboPhD as a versatile toolkit under the MIT license with a simple optimize_anything() API for evolving diverse complex agents.
- Abstract(参考訳): 2026年、GEPAやAutoresearchのようなシステムが、LLMが様々な領域にわたるプロンプト、コード、エージェントアーキテクチャを反復的に改善できることを示した。
同じ情報、同じシードエージェント、同じ目的を与えられた場合、どの最適化アルゴリズムが同じ評価予算の下で最良の結果をもたらすか?
この問題は、人間の判断や複数のLSM呼び出しを必要とする場合など、評価が高価である場合に重要になる。
本稿では,エロトーナメント選択(RoboPhD),パレートベース選択(GEPA),グレディヒルクライミング(Autoresearch)という3つの最適化パラダイムを,抽象推論,クラウドスケジューリング,SQL生成,財務QAの4つのベンチマークで比較した。
RoboPhDは、トレーニングとバリデーションの予算を分割する代わりに、トレーニングデータにEloコンペティションを使用してエージェントを同時に評価し、進化を促進する。
これら3つのシステムは全て、進化が成長する可能性があるという診断用プリント()のあるシードエージェントを受け取り、進化の後継者の利益のためにますます情報的診断を発達させる自己インストールエージェントを可能にする。
単一のデフォルト設定を使用して、RoboPhDは、GEPAとAutoresearchの両方を4つのベンチマークのうち3つで上回り、最も単純なタスクでのみ失われます。
ARC-AGIでは、RoboPhDは22行のシードエージェントを1,013行のマルチストラテジーシステムに進化させ、解法としてGemini 3.1 Flash Liteを使用して精度を27.8%から65.8%に向上させた。
我々は、さまざまな複雑なエージェントを進化させるためのシンプルなOptimation_anything() APIを使って、MITライセンスの下で汎用ツールキットとしてRoboPhDをリリースした。
関連論文リスト
- Dr. Zero: Self-Evolving Search Agents without Training Data [34.91191770652202]
我々は,検索エージェントがトレーニングデータなしで効果的に自己開発できるフレームワークであるDr. Zeroを紹介した。
特に,提案者が多様な質問を生成する自己進化フィードバックループを設計し,同じベースモデルから問題解決者を訓練する。
トレーニング効率を向上させるため、ホップ群相対ポリシー最適化(HRPO)も導入する。
論文 参考訳(メタデータ) (2026-01-11T20:27:55Z) - RoboPhD: Self-Improving Text-to-SQL Through Autonomous Agent Evolution [0.2389431394996565]
RoboPhDは、AIエージェントがテキストから適応的なパフォーマンスを改善するために、自律的に研究を行うシステムである。
フレームワークの中心は、ELOベースの選択メカニズムで、最も適したダイナミクスの生存を可能にする。
このシステムはBIRDテストセットで73.67%の精度を達成し、AIが自力で強力なエージェントシステムを構築できることを実証した。
論文 参考訳(メタデータ) (2026-01-03T09:16:07Z) - ROAD: Reflective Optimization via Automated Debugging for Zero-Shot Agent Alignment [1.6968020497268546]
ROADは、最適化を検索ではなく動的デバッグ調査として扱う新しいフレームワークである。
道路はサンプリング効率が高く、成功率は5.6%、検索精度は3.8%向上している。
これらの結果は、ヒューマンエンジニアリングの失敗分析とパッチングのループを模倣することで、リソース集約的なトレーニングに代わる、実行可能なデータ効率の代替が可能になることを示唆している。
論文 参考訳(メタデータ) (2025-12-30T07:31:34Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science [70.1638335489284]
高レベルの機械学習エンジニアリングタスクは、労働集約的で反復的である。
機械学習プロセスを形式化する包括的で分離されたフレームワークであるR&D-Agentを紹介します。
R&D-AgentはMLEを2つのフェーズと6つのコンポーネントに定義し、MLEのエージェント設計を原則としてテスト可能なプロセスに変える。
論文 参考訳(メタデータ) (2025-05-20T06:07:00Z) - OptimAI: Optimization from Natural Language Using LLM-Powered AI Agents [8.441638148384389]
自然言語で記述された最適化問題を解くためのフレームワークであるOptimAIを紹介する。
私たちのフレームワークは、フォーミュラ、プランナー、コーダ、コード批判といった重要な役割の上に構築されています。
提案手法では,NLP4LPデータセットで88.1%,Optibenchデータセットで82.3%,エラー率で58%,エラー率で52%の精度を実現した。
論文 参考訳(メタデータ) (2025-04-23T17:45:05Z) - RAG-Gym: Systematic Optimization of Language Agents for Retrieval-Augmented Generation [43.50113345998687]
本稿では,(1)プロンプトエンジニアリング,(2)アクターチューニング,(3)批判的トレーニングという,3つの最適化次元を探求する総合的なプラットフォームであるRAG-Gymを紹介する。
本稿では,リフレクション推論を取り入れた新しいエージェントであるRe$2$Searchを提案する。
アクターチューニングにおいて,プロセスの監督をきめ細かい3つの人気のあるポストトレーニングアルゴリズムを評価し,直接選好最適化を最も効果的に評価する。
論文 参考訳(メタデータ) (2025-02-19T18:56:03Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。