論文の概要: Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks
- arxiv url: http://arxiv.org/abs/2604.20987v1
- Date: Wed, 22 Apr 2026 18:17:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.125068
- Title: Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks
- Title(参考訳): 長期作業におけるLLM決定とスキルバンクエージェントの併用
- Authors: Xiyang Wu, Zongxia Li, Guangyao Shi, Alexander Duffy, Tyler Marques, Matthew Lyle Olson, Tianyi Zhou, Dinesh Manocha,
- Abstract要約: 大型言語モデル(LLM)はゲームプレイエージェントとして有望な代替手段を提供するが、一貫した長期的意思決定に苦戦することが多い。
我々は、LLM決定エージェントが学習可能なスキルバンクからスキルを回収し、アクションテイクをガイドするコ進化フレームワークであるCOSPLAYを提案する。
当社のフレームワークは,スキル検索とアクション生成を学習するための意思決定エージェントを改良し,スキルバンクエージェントは,契約とともに継続的にスキルを抽出し,洗練し,更新する。
- 参考スコア(独自算出の注目度): 83.4942519570046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long horizon interactive environments are a testbed for evaluating agents skill usage abilities. These environments demand multi step reasoning, the chaining of multiple skills over many timesteps, and robust decision making under delayed rewards and partial observability. Games are a good testbed for evaluating agent skill usage in environments. Large Language Models (LLMs) offer a promising alternative as game playing agents, but they often struggle with consistent long horizon decision making because they lack a mechanism to discover, retain, and reuse structured skills across episodes. We present COSPLAY, a co evolution framework in which an LLM decision agent retrieves skills from a learnable skill bank to guide action taking, while an agent managed skill pipeline discovers reusable skills from the agents unlabeled rollouts to form a skill bank. Our framework improves both the decision agent to learn better skill retrieval and action generation, while the skill bank agent continually extracts, refines, and updates skills together with their contracts. Experiments across six game environments show that COSPLAY with an 8B base model achieves over 25.1 percent average reward improvement against four frontier LLM baselines on single player game benchmarks while remaining competitive on multi player social reasoning games.
- Abstract(参考訳): 長時間水平方向の対話環境は、エージェントのスキル使用能力を評価するためのテストベッドである。
これらの環境は、複数のステップの推論、多くのタイムステップにおける複数のスキルの連鎖、遅延した報酬と部分的な可観測性の下での堅牢な意思決定を必要とする。
ゲームは、環境におけるエージェントのスキル使用量を評価するための良いテストベッドです。
大型言語モデル(LLM)はゲームプレイエージェントとして有望な代替手段を提供するが、エピソード全体で構造化されたスキルを発見し、保持し、再利用するメカニズムが欠如しているため、一貫した長い地平線決定に苦慮することが多い。
本稿では、LLM決定エージェントが学習可能なスキルバンクからスキルを取得してアクションテイクをガイドするコ進化フレームワークであるCOSPLAYを紹介し、エージェント管理スキルパイプラインは、未ラベルのロールアウトから再利用可能なスキルを発見してスキルバンクを形成する。
当社のフレームワークは,スキル検索とアクション生成を学習するための意思決定エージェントを改良し,スキルバンクエージェントは,契約とともに継続的にスキルを抽出し,洗練し,更新する。
6つのゲーム環境での実験では、COSPLAYは8Bベースモデルで、シングルプレイヤーゲームベンチマークの4つのフロンティアLDMベースラインに対して平均25.1%以上の報酬改善を達成する一方で、マルチプレイヤーのソーシャル推論ゲームでは競争力を維持している。
関連論文リスト
- EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification [85.3692584167951]
Anthropicは、LLMエージェントが多段階のプロフェッショナルタスクに取り組むためのスキルの概念を提案する。
ツールは単一の自己完結型関数であり、スキルは相互依存型多ファイルアーティファクトの構造化バンドルである。
EvoSkillsは、エージェントが複雑なマルチファイルスキルパッケージを自律的に構築できる自己進化型スキルフレームワークである。
論文 参考訳(メタデータ) (2026-04-02T06:43:20Z) - Dynamic Dual-Granularity Skill Bank for Agentic RL [34.161117844675324]
D2Skillはエージェント強化学習のための動的二重粒度スキルバンクである。
再利用可能な経験をタスクスキルに整理し、高いレベルのガイダンスとステップスキルを使って、きめ細かい意思決定支援とエラー修正を行う。
論文 参考訳(メタデータ) (2026-03-30T17:32:11Z) - Reinforcement Learning for Self-Improving Agent with Skill Library [14.717149089634718]
大規模言語モデル(LLM)に基づくエージェントは、複雑な推論とマルチターン相互作用において顕著な機能を示した。
有望なアプローチの1つは、エージェントが新しいスキルを学び、検証し、適用できるスキルライブラリを実装することである。
スキルライブラリによるエージェントの自己改善能力を高めるための強化学習(RL)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-18T21:58:19Z) - PillagerBench: Benchmarking LLM-Based Agents in Competitive Minecraft Team Environments [48.892997022500765]
PillagerBenchは、Minecraftのリアルタイムの競合チーム-vs-チームシナリオでマルチエージェントシステムを評価するフレームワークである。
また,LLMベースのマルチエージェントシステムであるTactiCrafterを提案する。
評価の結果、TactiCrafterはベースラインのアプローチよりも優れており、自己学習による適応学習を誇示している。
論文 参考訳(メタデータ) (2025-09-07T22:51:12Z) - Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - Multi-Agent Training for Pommerman: Curriculum Learning and Population-based Self-Play Approach [11.740631954398292]
Pommermanはマルチエージェントトレーニングのための理想的なベンチマークであり、同盟エージェント間のコミュニケーション能力を持つ2つのチームのための戦場を提供する。
本研究は,カリキュラム学習と人口ベースセルフプレイを組み合わせることで,Pommermanをプレイするマルチエージェントシステムを学習するためのシステムを提案する。
論文 参考訳(メタデータ) (2024-06-30T11:14:29Z) - Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game [37.69298376616128]
我々は、柔軟な言語行動を生成し、強力な意思決定能力を有する戦略的言語エージェントを開発する。
言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。
実験により,我々のエージェントは本態性バイアスを克服し,Werewolfゲームにおいて既存のLSMベースのエージェントより優れていることが示された。
論文 参考訳(メタデータ) (2023-10-29T09:02:57Z) - AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。
我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。