論文の概要: Evolving Excellence: Automated Optimization of LLM-based Agents
- arxiv url: http://arxiv.org/abs/2512.09108v1
- Date: Tue, 09 Dec 2025 20:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.315913
- Title: Evolving Excellence: Automated Optimization of LLM-based Agents
- Title(参考訳): 進化する卓越性: LLMをベースとしたエージェントの自動最適化
- Authors: Paul Brookes, Vardan Voskanyan, Rafail Giavrimis, Matthew Truscott, Mina Ilieva, Chrystalla Pavlou, Alexandru Staicu, Manal Adham, Will Evers- Hood, Jingzhi Gong, Kejia Zhang, Matvey Fedoseev, Vishal Sharma, Roman Bauer, Zheng Wang, Hema Nair, Wei Jie, Tianhua Xu, Aurora Constantin, Leslie Kanthan, Michail Basios,
- Abstract要約: 我々は、意味論的に認識された遺伝的演算子を通してエージェント構成を協調的に最適化する、ノーコード進化最適化プラットフォームであるARTEMISを提案する。
我々は,AtCoder Heuristic Contest 上での競争プログラミングのための emphALE Agent の 4 つの代表的なエージェントシステム上で ARTEMIS を評価する。
また、GSM8Kの初等レベルの数学問題に対して、より小さなオープンソースモデル(Qwen2.5-7B)を用いたemphMathTales-Teacher Agentの評価を行い、textbfを実現する。
- 参考スコア(独自算出の注目度): 33.81822162934331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic AI systems built on large language models (LLMs) offer significant potential for automating complex workflows, from software development to customer support. However, LLM agents often underperform due to suboptimal configurations; poorly tuned prompts, tool descriptions, and parameters that typically require weeks of manual refinement. Existing optimization methods either are too complex for general use or treat components in isolation, missing critical interdependencies. We present ARTEMIS, a no-code evolutionary optimization platform that jointly optimizes agent configurations through semantically-aware genetic operators. Given only a benchmark script and natural language goals, ARTEMIS automatically discovers configurable components, extracts performance signals from execution logs, and evolves configurations without requiring architectural modifications. We evaluate ARTEMIS on four representative agent systems: the \emph{ALE Agent} for competitive programming on AtCoder Heuristic Contest, achieving a \textbf{$13.6\%$ improvement} in acceptance rate; the \emph{Mini-SWE Agent} for code optimization on SWE-Perf, with a statistically significant \textbf{10.1\% performance gain}; and the \emph{CrewAI Agent} for cost and mathematical reasoning on Math Odyssey, achieving a statistically significant \textbf{$36.9\%$ reduction} in the number of tokens required for evaluation. We also evaluate the \emph{MathTales-Teacher Agent} powered by a smaller open-source model (Qwen2.5-7B) on GSM8K primary-level mathematics problems, achieving a \textbf{22\% accuracy improvement} and demonstrating that ARTEMIS can optimize agents based on both commercial and local models.
- Abstract(参考訳): 大規模言語モデル(LLM)上に構築されたエージェントAIシステムは、ソフトウェア開発から顧客サポートまで、複雑なワークフローを自動化する上で大きな可能性を秘めている。
しかし、LLMエージェントは、最適化されていないプロンプト、ツール記述、通常数週間のマニュアル修正を必要とするパラメータなど、最適でない設定のため、しばしば性能が低下した。
既存の最適化手法は、一般的な用途では複雑すぎるか、コンポーネントを分離して扱い、重要な相互依存を欠いている。
我々は、意味論的に認識された遺伝的演算子を通してエージェント構成を協調的に最適化する、ノーコード進化最適化プラットフォームであるARTEMISを提案する。
ベンチマークスクリプトと自然言語の目標のみを前提として、ARTEMISは自動的に構成可能なコンポーネントを発見し、実行ログからパフォーマンス信号を抽出し、アーキテクチャ変更を必要とせずに構成を進化させる。
我々は,AtCoder Heuristic Contest 上での競合プログラミングのための \emph{ALE Agent} と,SWE-Perf 上でのコード最適化のための \emph{Mini-SWE Agent} と,統計的に重要な \textbf{10.1\% 性能ゲインを備えた \emph{Mini-SWE Agent} と,Math Odyssey 上でのコストと数学的推論のための \emph{CrewAI Agent} の4つの代表エージェントシステム上でARTEMIS を評価する。
また, GSM8Kの一次レベル数学問題に対して, より小さなオープンソースモデル(Qwen2.5-7B)をベースとした「emph{MathTales-Teacher Agent」の評価を行い, 「textbf{22\%精度改善」を実現し, 商用モデルとローカルモデルの両方に基づいてARTEMISがエージェントを最適化できることを実証した。
関連論文リスト
- ComAgent: Multi-LLM based Agentic AI Empowered Intelligent Wireless Networks [62.031889234230725]
6Gネットワークは複雑な層間最適化に依存している。
数学の定式化に高レベルの意図を手動で翻訳することは、まだボトルネックである。
我々はマルチLLMエージェントAIフレームワークであるComAgentを紹介する。
論文 参考訳(メタデータ) (2026-01-27T13:43:59Z) - SimuAgent: An LLM-Based Simulink Modeling Assistant Enhanced with Reinforcement Learning [3.1436750864792375]
我々は,Simulinkに適したモデリングおよびシミュレーションエージェントであるSimuAgentを紹介する。
SimuAgentはXMLを簡潔な辞書スタイルのPython表現に置き換え、トークン数を劇的に削減する。
2段階で訓練された軽量な計画実行アーキテクチャは、エージェントに低レベルのツールスキルと高レベルの設計推論の両方を装備する。
論文 参考訳(メタデータ) (2026-01-08T18:10:35Z) - Jenius Agent: Towards Experience-Driven Accuracy Optimization in Real-World Scenarios [0.9069311779417014]
本稿では,実体験に基づくエージェントフレームワークを提案する。
Jenius-Agentという名前のエンドツーエンドフレームワークは、3つの重要な最適化と統合されている。
実験によると、タスクの精度が20%向上し、トークンコストが削減され、レスポンスレイテンシが低下し、起動障害が発生している。
論文 参考訳(メタデータ) (2026-01-05T07:35:12Z) - Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization [37.17893162265247]
Youtu-AgentはLarge Language Model (LLM)エージェントの自動生成と継続的進化のために設計されたフレームワークである。
Youtu-Agentは、実行環境、ツールキット、コンテキスト管理を分離する構造化構成システムを備えている。
実験により、Youtu-Agentはオープンウェイトモデルを用いてWebWalkerQA(71.47%)とGAIA72.8%)で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-12-31T04:17:36Z) - AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent [80.83250816918861]
o3やDeepSeek-R1のようなLarge Reasoning Models (LRM)は、長いチェーン・オブ・シークレットを持つ自然言語推論において顕著な進歩を遂げている。
しかし、計算的に非効率であり、複雑な数学的操作を必要とする問題を解く際には精度に苦しむ。
本稿では,言語モデルの推論能力とコードインタプリタの計算精度をシームレスに統合するエージェントフレームワークであるAgentMathを紹介する。
論文 参考訳(メタデータ) (2025-12-23T19:57:49Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - Hybrid Agentic AI and Multi-Agent Systems in Smart Manufacturing [0.0]
本稿では,複合エージェントAIとマルチエージェントフレームワークを,規範的メンテナンスユースケースに適用する。
提案するフレームワークは、認識層、前処理層、分析層、最適化層からなる階層アーキテクチャを採用している。
特殊エージェントは、スキーマ発見、インテリジェントな特徴分析、モデル選択、規範最適化を自律的に処理する。
最初の概念実証は、2つの工業生産データセットで検証される。
論文 参考訳(メタデータ) (2025-11-23T03:06:23Z) - $Agent^2$: An Agent-Generates-Agent Framework for Reinforcement Learning Automation [5.325886106098561]
強化学習(RL)エージェント開発は伝統的にかなりの専門知識と反復的な努力を必要とする。
本稿では,完全自動RLエージェント設計のための LLM 駆動型エージェント生成エージェントフレームワークである Agent$2$ を紹介する。
Agent$2$は、自然言語のタスク記述と環境コードを人間の介入なしに実行可能なRLソリューションに変換する。
論文 参考訳(メタデータ) (2025-09-16T02:14:39Z) - SI-Agent: An Agentic Framework for Feedback-Driven Generation and Tuning of Human-Readable System Instructions for Large Language Models [0.0]
システムインストラクション(SI)は、大規模言語モデル(LLM)の指針となる。
既存の自動化手法は、人間が読めない「ソフトプロンプト」を頻繁に生成し、解釈しやすさを犠牲にする。
本稿では,人間の読みやすいSIを自動生成し,反復的に洗練する新しいエージェントフレームワークであるSI-Agentを紹介する。
論文 参考訳(メタデータ) (2025-07-03T23:44:50Z) - CompileAgent: Automated Real-World Repo-Level Compilation with Tool-Integrated LLM-based Agent System [52.048087777953064]
リポジトリレベルのコンパイル専用のエージェントフレームワークであるCompileAgentを提案する。
CompileAgentは5つのツールとフローベースのエージェント戦略を統合し、コンパイル命令検索とエラー解決のためのソフトウェアアーチファクトとのインタラクションを可能にする。
提案手法は,10%から71%の範囲で,コンパイル成功率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-05-07T08:59:14Z) - OptimAI: Optimization from Natural Language Using LLM-Powered AI Agents [8.441638148384389]
自然言語で記述された最適化問題を解くためのフレームワークであるOptimAIを紹介する。
私たちのフレームワークは、フォーミュラ、プランナー、コーダ、コード批判といった重要な役割の上に構築されています。
提案手法では,NLP4LPデータセットで88.1%,Optibenchデータセットで82.3%,エラー率で58%,エラー率で52%の精度を実現した。
論文 参考訳(メタデータ) (2025-04-23T17:45:05Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。