論文の概要: Agents of Change: Self-Evolving LLM Agents for Strategic Planning
- arxiv url: http://arxiv.org/abs/2506.04651v2
- Date: Mon, 13 Oct 2025 08:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 20:23:38.854593
- Title: Agents of Change: Self-Evolving LLM Agents for Strategic Planning
- Title(参考訳): 変革のエージェント:戦略計画のための自己進化型LDMエージェント
- Authors: Nikolas Belle, Dakota Barnes, Alfonso Amayuelas, Ivan Bercovich, Xin Eric Wang, William Wang,
- Abstract要約: HexMachinaは、環境発見と戦略改善を分離する継続的学習マルチエージェントシステムである。
制御されたカタナトロン実験では、HexMachinaはスクラッチから学び、最強の人造ベースラインを上回るプレイヤーを進化させる。
- 参考スコア(独自算出の注目度): 28.172006841163938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the long-horizon gap in large language model (LLM) agents by enabling them to sustain coherent strategies in adversarial, stochastic environments. Settlers of Catan provides a challenging benchmark: success depends on balancing short- and long-term goals amid randomness, trading, expansion, and blocking. Prompt-centric LLM agents (e.g., ReAct, Reflexion) must re-interpret large, evolving game states each turn, quickly saturating context windows and losing strategic consistency. We propose HexMachina, a continual learning multi-agent system that separates environment discovery (inducing an adapter layer without documentation) from strategy improvement (evolving a compiled player through code refinement and simulation). This design preserves executable artifacts, allowing the LLM to focus on high-level strategy rather than per-turn reasoning. In controlled Catanatron experiments, HexMachina learns from scratch and evolves players that outperform the strongest human-crafted baseline (AlphaBeta), achieving a 54% win rate and surpassing prompt-driven and no-discovery baselines. Ablations confirm that isolating pure strategy learning improves performance. Overall, artifact-centric continual learning transforms LLMs from brittle stepwise deciders into stable strategy designers, advancing long-horizon autonomy.
- Abstract(参考訳): 我々は,大規模言語モデル (LLM) エージェントの長期的ギャップに対処し,敵対的,確率的な環境下でのコヒーレントな戦略の維持を可能にする。
成功は、ランダム性、トレーディング、拡張、ブロッキングの中で、短期と長期の目標のバランスに依存する。
プロンプト中心のLLMエージェント(例えば、ReAct、Reflexion)は、回転ごとに大きく進化するゲーム状態を再解釈し、コンテキストウィンドウを素早く飽和させ、戦略的一貫性を失う必要がある。
本稿では,HexMachinaを提案する。HexMachinaは,環境発見(ドキュメンテーションなしのアダプタ層の導入)と戦略改善(コード修正とシミュレーションによるコンパイルプレイヤーの進化)を分離する,継続的学習型マルチエージェントシステムである。
この設計は実行可能なアーティファクトを保存し、LLMはターン毎の推論よりも高いレベルの戦略に集中することができる。
制御されたカタナトロン実験では、HexMachinaはスクラッチから学び、最強の人造ベースライン(AlphaBeta)を上回り、勝利率54%を達成し、急速駆動で発見できないベースラインを上回ったプレイヤーを進化させる。
純粋な戦略学習を分離することで、パフォーマンスが向上する。
全体として、アーティファクト中心の継続的学習は、LSMを不安定な段階的な決定者から安定した戦略設計者へと変換し、長期的自律性を促進する。
関連論文リスト
- Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:11:12Z) - The Influence of Human-inspired Agentic Sophistication in LLM-driven Strategic Reasoners [3.5083201638203154]
人工推論器の性能形成におけるエージェント的高度化の役割を評価する。
我々は3つのエージェント設計をベンチマークした: 単純なゲーム理論モデル、構造化されていないLLM-as-agentモデル、従来のエージェントフレームワークに統合されたLLM。
我々の分析は、25のエージェント構成にまたがる2000以上の推論サンプルを網羅し、人間にインスパイアされた認知構造が、LLMエージェントと人間の戦略的行動との整合性を高めることを示唆している。
論文 参考訳(メタデータ) (2025-05-14T13:51:24Z) - FAIRGAME: a Framework for AI Agents Bias Recognition using Game Theory [51.96049148869987]
ゲーム理論を用いたAIエージェントバイアス認識フレームワークFAIRGAMEを提案する。
我々は,AIエージェント間の人気ゲームにおけるバイアスのある結果を明らかにするために,その実装と利用について述べる。
全体として、FAIRGAMEはユーザーが望むゲームやシナリオを確実に簡単にシミュレートできる。
論文 参考訳(メタデータ) (2025-04-19T15:29:04Z) - SAC-GLAM: Improving Online RL for LLM agents with Soft Actor-Critic and Hindsight Relabeling [29.29604779151457]
本稿では,LSM剤に適応するソフトアクター・クライトと後方視の適応について検討する。
本手法は,従来のマルチゴールRL環境において,オンライン学習を行う自動LLMエージェントへの道筋を示す。
論文 参考訳(メタデータ) (2024-10-16T11:59:27Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。
これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。
本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - AgentLite: A Lightweight Library for Building and Advancing
Task-Oriented LLM Agent System [91.41155892086252]
LLMエージェントの研究を簡略化する新しいAIエージェントライブラリであるAgentLiteをオープンソースとして公開する。
AgentLiteは、タスクを分解するエージェントの機能を強化するために設計されたタスク指向フレームワークである。
我々は,その利便性と柔軟性を示すために,AgentLiteで開発された実用アプリケーションを紹介した。
論文 参考訳(メタデータ) (2024-02-23T06:25:20Z) - Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game [37.69298376616128]
我々は、柔軟な言語行動を生成し、強力な意思決定能力を有する戦略的言語エージェントを開発する。
言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。
実験により,我々のエージェントは本態性バイアスを克服し,Werewolfゲームにおいて既存のLSMベースのエージェントより優れていることが示された。
論文 参考訳(メタデータ) (2023-10-29T09:02:57Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。