論文の概要: Rethinking Agent Design: From Top-Down Workflows to Bottom-Up Skill Evolution
- arxiv url: http://arxiv.org/abs/2505.17673v1
- Date: Fri, 23 May 2025 09:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.969871
- Title: Rethinking Agent Design: From Top-Down Workflows to Bottom-Up Skill Evolution
- Title(参考訳): エージェントデザインの再考:トップダウンワークフローからボトムアップスキルの進化
- Authors: Jiawei Du, Jinlong Wu, Yuzheng Chen, Yucheng Hu, Bing Li, Joey Tianyi Zhou,
- Abstract要約: 人間の学習過程を反映したボトムアップエージェントパラダイムを導入する。
エージェントは、試行錯誤メカニズムを探索し、成果を反映し、時間とともにスキルを抽象化することで能力を獲得する。
Slay the Spire and Civilization Vでは、エージェントが生の視覚的入力を通じて知覚し、マウスのアウトプットを介して行動する。
- 参考スコア(独自算出の注目度): 34.66260172204154
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most LLM-based agent frameworks adopt a top-down philosophy: humans decompose tasks, define workflows, and assign agents to execute each step. While effective on benchmark-style tasks, such systems rely on designer updates and overlook agents' potential to learn from experience. Recently, Silver and Sutton(2025) envision a shift into a new era, where agents could progress from a stream of experiences. In this paper, we instantiate this vision of experience-driven learning by introducing a bottom-up agent paradigm that mirrors the human learning process. Agents acquire competence through a trial-and-reasoning mechanism-exploring, reflecting on outcomes, and abstracting skills over time. Once acquired, skills can be rapidly shared and extended, enabling continual evolution rather than static replication. As more agents are deployed, their diverse experiences accelerate this collective process, making bottom-up design especially suited for open-ended environments. We evaluate this paradigm in Slay the Spire and Civilization V, where agents perceive through raw visual inputs and act via mouse outputs, the same as human players. Using a unified, game-agnostic codebase without any game-specific prompts or privileged APIs, our bottom-up agents acquire skills entirely through autonomous interaction, demonstrating the potential of the bottom-up paradigm in complex, real-world environments. Our code is available at https://github.com/AngusDujw/Bottom-Up-Agent.
- Abstract(参考訳): 人間はタスクを分解し、ワークフローを定義し、各ステップを実行するためにエージェントを割り当てる。
ベンチマークスタイルのタスクでは有効であるが、そのようなシステムは設計者の更新や、経験から学ぶための見落としエージェントの能力に依存している。
最近、Silver and Sutton(2025)は、エージェントが一連の経験から進歩する新しい時代へのシフトを構想している。
本稿では,人間の学習過程を反映したボトムアップエージェントパラダイムを導入することで,経験駆動学習のこのビジョンをインスタンス化する。
エージェントは、試行錯誤メカニズムを探索し、成果を反映し、時間とともにスキルを抽象化することで能力を獲得する。
一度獲得すると、スキルは素早く共有され、拡張され、静的レプリケーションではなく継続的な進化を可能にする。
より多くのエージェントがデプロイされるにつれて、その多様な体験がこの集合的なプロセスを加速し、ボトムアップの設計は特にオープンな環境に適している。
Slay the Spire and Civilization Vでは、エージェントが生の視覚的入力を通じて知覚し、マウスのアウトプットを介して行動する。
私たちのボトムアップエージェントは、ゲーム固有のプロンプトや特権のあるAPIを使わずに、統一されたゲームに依存しないコードベースを使用して、自律的なインタラクションを通じて、ボトムアップパラダイムの可能性を実世界の複雑な環境で実証します。
私たちのコードはhttps://github.com/AngusDujw/Bottom-Up-Agent.comで公開されています。
関連論文リスト
- Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization [56.674356045200696]
本稿では,複雑なメモシステムや事前の高品質な実演データを必要としない,複数のタスクに対する知識とスキルを取り入れたAIエージェントの訓練手法を提案する。
このアプローチでは,エージェントが新たな経験を収集し,ヒントの形で人間から補正フィードバックを受け取り,このフィードバックを重みに組み込む,反復的なプロセスを採用している。
Llama-3 をベースとしたエージェントに実装することで,提案手法の有効性を実証し,数ラウンドのフィードバックの後,高度なモデル GPT-4o と DeepSeek-V3 をタスクセットで向上させる。
論文 参考訳(メタデータ) (2025-02-03T17:45:46Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization [66.22117723598872]
マルチモーダルWebエージェントの開発を容易にするために設計されたオープンソースフレームワークを紹介する。
まず、基本モデルを模倣学習で訓練し、基礎能力を得る。
次に、エージェントにオープンウェブを探索させ、その軌道に関するフィードバックを収集する。
論文 参考訳(メタデータ) (2024-10-25T15:01:27Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。
これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。
本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。