論文の概要: Agents of Change: Self-Evolving LLM Agents for Strategic Planning
- arxiv url: http://arxiv.org/abs/2506.04651v1
- Date: Thu, 05 Jun 2025 05:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.554276
- Title: Agents of Change: Self-Evolving LLM Agents for Strategic Planning
- Title(参考訳): 変革のエージェント:戦略計画のための自己進化型LDMエージェント
- Authors: Nikolas Belle, Dakota Barnes, Alfonso Amayuelas, Ivan Bercovich, Xin Eric Wang, William Wang,
- Abstract要約: 我々は、シンプルなゲームプレイングエージェントから、自身のプロンプトとプレイヤーエージェントのコードを自動で書き直すことができるシステムまで、LSMベースのエージェントの進歩をベンチマークする。
以上の結果から,特にClaude 3.7 や GPT-4o などのモデルによって駆動される自己進化型エージェントは,その戦略を自律的に採用することで,静的ベースラインを上回っていることがわかった。
- 参考スコア(独自算出の注目度): 17.67637003848376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in LLMs have enabled their use as autonomous agents across a range of tasks, yet they continue to struggle with formulating and adhering to coherent long-term strategies. In this paper, we investigate whether LLM agents can self-improve when placed in environments that explicitly challenge their strategic planning abilities. Using the board game Settlers of Catan, accessed through the open-source Catanatron framework, we benchmark a progression of LLM-based agents, from a simple game-playing agent to systems capable of autonomously rewriting their own prompts and their player agent's code. We introduce a multi-agent architecture in which specialized roles (Analyzer, Researcher, Coder, and Player) collaborate to iteratively analyze gameplay, research new strategies, and modify the agent's logic or prompt. By comparing manually crafted agents to those evolved entirely by LLMs, we evaluate how effectively these systems can diagnose failure and adapt over time. Our results show that self-evolving agents, particularly when powered by models like Claude 3.7 and GPT-4o, outperform static baselines by autonomously adopting their strategies, passing along sample behavior to game-playing agents, and demonstrating adaptive reasoning over multiple iterations.
- Abstract(参考訳): LLMの最近の進歩により、様々なタスクで自律エージェントとしての使用が可能になったが、長期的な戦略の整合化と固執に苦戦し続けている。
本稿では,LLMエージェントが戦略的計画能力に挑戦する環境に置かれる際に,自己改善できるかどうかを検討する。
オープンソースの Catanatron フレームワークを通じてアクセスされたボードゲーム Settlers of Catan を用いて,簡単なゲームプレイングエージェントから,自身のプロンプトとプレーヤエージェントのコードを自動で書き直せるシステムまで,LCM ベースのエージェントの進歩をベンチマークした。
我々は,ゲームプレイを反復的に分析し,新たな戦略を研究し,エージェントの論理やプロンプトを変更する,特殊な役割(Analyzer,Researcher,Coder,Player)を持つマルチエージェントアーキテクチャを導入する。
手作業によるエージェントとLLMで完全に進化したエージェントを比較することで、これらのシステムが障害を効果的に診断し、時間とともに適応できるかどうかを評価する。
以上の結果から,特にClaude 3.7 や GPT-4o などのモデルを用いた自己進化型エージェントは,その戦略を自律的に採用し,ゲームプレイングエージェントにサンプル動作をパスし,複数回にわたって適応的推論を示すことで,静的ベースラインよりも優れていた。
関連論文リスト
- Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:11:12Z) - SAC-GLAM: Improving Online RL for LLM agents with Soft Actor-Critic and Hindsight Relabeling [29.29604779151457]
本稿では,LSM剤に適応するソフトアクター・クライトと後方視の適応について検討する。
本手法は,従来のマルチゴールRL環境において,オンライン学習を行う自動LLMエージェントへの道筋を示す。
論文 参考訳(メタデータ) (2024-10-16T11:59:27Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。
これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。
本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - AgentLite: A Lightweight Library for Building and Advancing
Task-Oriented LLM Agent System [91.41155892086252]
LLMエージェントの研究を簡略化する新しいAIエージェントライブラリであるAgentLiteをオープンソースとして公開する。
AgentLiteは、タスクを分解するエージェントの機能を強化するために設計されたタスク指向フレームワークである。
我々は,その利便性と柔軟性を示すために,AgentLiteで開発された実用アプリケーションを紹介した。
論文 参考訳(メタデータ) (2024-02-23T06:25:20Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。