論文の概要: Evolving Excellence: Automated Optimization of LLM-based Agents
- arxiv url: http://arxiv.org/abs/2512.09108v1
- Date: Tue, 09 Dec 2025 20:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.315913
- Title: Evolving Excellence: Automated Optimization of LLM-based Agents
- Title(参考訳): 進化する卓越性: LLMをベースとしたエージェントの自動最適化
- Authors: Paul Brookes, Vardan Voskanyan, Rafail Giavrimis, Matthew Truscott, Mina Ilieva, Chrystalla Pavlou, Alexandru Staicu, Manal Adham, Will Evers- Hood, Jingzhi Gong, Kejia Zhang, Matvey Fedoseev, Vishal Sharma, Roman Bauer, Zheng Wang, Hema Nair, Wei Jie, Tianhua Xu, Aurora Constantin, Leslie Kanthan, Michail Basios,
- Abstract要約: 我々は、意味論的に認識された遺伝的演算子を通してエージェント構成を協調的に最適化する、ノーコード進化最適化プラットフォームであるARTEMISを提案する。
我々は,AtCoder Heuristic Contest 上での競争プログラミングのための emphALE Agent の 4 つの代表的なエージェントシステム上で ARTEMIS を評価する。
また、GSM8Kの初等レベルの数学問題に対して、より小さなオープンソースモデル(Qwen2.5-7B)を用いたemphMathTales-Teacher Agentの評価を行い、textbfを実現する。
- 参考スコア(独自算出の注目度): 33.81822162934331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic AI systems built on large language models (LLMs) offer significant potential for automating complex workflows, from software development to customer support. However, LLM agents often underperform due to suboptimal configurations; poorly tuned prompts, tool descriptions, and parameters that typically require weeks of manual refinement. Existing optimization methods either are too complex for general use or treat components in isolation, missing critical interdependencies. We present ARTEMIS, a no-code evolutionary optimization platform that jointly optimizes agent configurations through semantically-aware genetic operators. Given only a benchmark script and natural language goals, ARTEMIS automatically discovers configurable components, extracts performance signals from execution logs, and evolves configurations without requiring architectural modifications. We evaluate ARTEMIS on four representative agent systems: the \emph{ALE Agent} for competitive programming on AtCoder Heuristic Contest, achieving a \textbf{$13.6\%$ improvement} in acceptance rate; the \emph{Mini-SWE Agent} for code optimization on SWE-Perf, with a statistically significant \textbf{10.1\% performance gain}; and the \emph{CrewAI Agent} for cost and mathematical reasoning on Math Odyssey, achieving a statistically significant \textbf{$36.9\%$ reduction} in the number of tokens required for evaluation. We also evaluate the \emph{MathTales-Teacher Agent} powered by a smaller open-source model (Qwen2.5-7B) on GSM8K primary-level mathematics problems, achieving a \textbf{22\% accuracy improvement} and demonstrating that ARTEMIS can optimize agents based on both commercial and local models.
- Abstract(参考訳): 大規模言語モデル(LLM)上に構築されたエージェントAIシステムは、ソフトウェア開発から顧客サポートまで、複雑なワークフローを自動化する上で大きな可能性を秘めている。
しかし、LLMエージェントは、最適化されていないプロンプト、ツール記述、通常数週間のマニュアル修正を必要とするパラメータなど、最適でない設定のため、しばしば性能が低下した。
既存の最適化手法は、一般的な用途では複雑すぎるか、コンポーネントを分離して扱い、重要な相互依存を欠いている。
我々は、意味論的に認識された遺伝的演算子を通してエージェント構成を協調的に最適化する、ノーコード進化最適化プラットフォームであるARTEMISを提案する。
ベンチマークスクリプトと自然言語の目標のみを前提として、ARTEMISは自動的に構成可能なコンポーネントを発見し、実行ログからパフォーマンス信号を抽出し、アーキテクチャ変更を必要とせずに構成を進化させる。
我々は,AtCoder Heuristic Contest 上での競合プログラミングのための \emph{ALE Agent} と,SWE-Perf 上でのコード最適化のための \emph{Mini-SWE Agent} と,統計的に重要な \textbf{10.1\% 性能ゲインを備えた \emph{Mini-SWE Agent} と,Math Odyssey 上でのコストと数学的推論のための \emph{CrewAI Agent} の4つの代表エージェントシステム上でARTEMIS を評価する。
また, GSM8Kの一次レベル数学問題に対して, より小さなオープンソースモデル(Qwen2.5-7B)をベースとした「emph{MathTales-Teacher Agent」の評価を行い, 「textbf{22\%精度改善」を実現し, 商用モデルとローカルモデルの両方に基づいてARTEMISがエージェントを最適化できることを実証した。
関連論文リスト
- Hybrid Agentic AI and Multi-Agent Systems in Smart Manufacturing [0.0]
本稿では,複合エージェントAIとマルチエージェントフレームワークを,規範的メンテナンスユースケースに適用する。
提案するフレームワークは、認識層、前処理層、分析層、最適化層からなる階層アーキテクチャを採用している。
特殊エージェントは、スキーマ発見、インテリジェントな特徴分析、モデル選択、規範最適化を自律的に処理する。
最初の概念実証は、2つの工業生産データセットで検証される。
論文 参考訳(メタデータ) (2025-11-23T03:06:23Z) - $Agent^2$: An Agent-Generates-Agent Framework for Reinforcement Learning Automation [5.325886106098561]
強化学習(RL)エージェント開発は伝統的にかなりの専門知識と反復的な努力を必要とする。
本稿では,完全自動RLエージェント設計のための LLM 駆動型エージェント生成エージェントフレームワークである Agent$2$ を紹介する。
Agent$2$は、自然言語のタスク記述と環境コードを人間の介入なしに実行可能なRLソリューションに変換する。
論文 参考訳(メタデータ) (2025-09-16T02:14:39Z) - SI-Agent: An Agentic Framework for Feedback-Driven Generation and Tuning of Human-Readable System Instructions for Large Language Models [0.0]
システムインストラクション(SI)は、大規模言語モデル(LLM)の指針となる。
既存の自動化手法は、人間が読めない「ソフトプロンプト」を頻繁に生成し、解釈しやすさを犠牲にする。
本稿では,人間の読みやすいSIを自動生成し,反復的に洗練する新しいエージェントフレームワークであるSI-Agentを紹介する。
論文 参考訳(メタデータ) (2025-07-03T23:44:50Z) - OptimAI: Optimization from Natural Language Using LLM-Powered AI Agents [8.441638148384389]
自然言語で記述された最適化問題を解くためのフレームワークであるOptimAIを紹介する。
私たちのフレームワークは、フォーミュラ、プランナー、コーダ、コード批判といった重要な役割の上に構築されています。
提案手法では,NLP4LPデータセットで88.1%,Optibenchデータセットで82.3%,エラー率で58%,エラー率で52%の精度を実現した。
論文 参考訳(メタデータ) (2025-04-23T17:45:05Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。