論文の概要: APT: Architectural Planning and Text-to-Blueprint Construction Using Large Language Models for Open-World Agents
- arxiv url: http://arxiv.org/abs/2411.17255v1
- Date: Tue, 26 Nov 2024 09:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:36:53.319384
- Title: APT: Architectural Planning and Text-to-Blueprint Construction Using Large Language Models for Open-World Agents
- Title(参考訳): APT:オープンワールドエージェントのための大規模言語モデルを用いた建築計画とテキスト・トゥ・ブループリントの構築
- Authors: Jun Yu Chen, Tao Gao,
- Abstract要約: 本稿では,自律型エージェントによるMinecraftの複雑な構造構築を可能にする,LLM(Large Language Model)駆動のフレームワークを提案する。
連鎖分解とマルチモーダル入力を用いることで、このフレームワークは詳細なアーキテクチャレイアウトと青写真を生成する。
本エージェントは, メモリとリフレクションモジュールの両方を組み込んで, 生涯学習, 適応的洗練, エラー訂正を容易にする。
- 参考スコア(独自算出の注目度): 8.479128275067742
- License:
- Abstract: We present APT, an advanced Large Language Model (LLM)-driven framework that enables autonomous agents to construct complex and creative structures within the Minecraft environment. Unlike previous approaches that primarily concentrate on skill-based open-world tasks or rely on image-based diffusion models for generating voxel-based structures, our method leverages the intrinsic spatial reasoning capabilities of LLMs. By employing chain-of-thought decomposition along with multimodal inputs, the framework generates detailed architectural layouts and blueprints that the agent can execute under zero-shot or few-shot learning scenarios. Our agent incorporates both memory and reflection modules to facilitate lifelong learning, adaptive refinement, and error correction throughout the building process. To rigorously evaluate the agent's performance in this emerging research area, we introduce a comprehensive benchmark consisting of diverse construction tasks designed to test creativity, spatial reasoning, adherence to in-game rules, and the effective integration of multimodal instructions. Experimental results using various GPT-based LLM backends and agent configurations demonstrate the agent's capacity to accurately interpret extensive instructions involving numerous items, their positions, and orientations. The agent successfully produces complex structures complete with internal functionalities such as Redstone-powered systems. A/B testing indicates that the inclusion of a memory module leads to a significant increase in performance, emphasizing its role in enabling continuous learning and the reuse of accumulated experience. Additionally, the agent's unexpected emergence of scaffolding behavior highlights the potential of future LLM-driven agents to utilize subroutine planning and leverage the emergence ability of LLMs to autonomously develop human-like problem-solving techniques.
- Abstract(参考訳): 我々は,自律エージェントがMinecraft環境内で複雑で創造的な構造を構築できる高度大規模言語モデル(LLM)駆動のフレームワークであるAPTを提案する。
スキルベースのオープンワールドタスクやボクセルベースの構造を生成するイメージベース拡散モデルに主に焦点をあてた従来の手法とは異なり、本手法はLLMの本質的な空間推論能力を活用する。
連鎖分解とマルチモーダル入力を用いることで、エージェントがゼロショットまたは少数ショットの学習シナリオで実行できる詳細なアーキテクチャレイアウトと青写真を生成する。
本エージェントは, メモリとリフレクションモジュールの両方を組み込んで, 生涯学習, 適応的洗練, エラー訂正を容易にする。
本研究領域におけるエージェントの性能を厳格に評価するために,創造性,空間的推論,ゲーム内ルールの遵守,マルチモーダル命令の効果的な統合などをテストするために設計された多種多様な構成タスクからなる総合的なベンチマークを導入する。
様々な GPT ベースの LLM バックエンドとエージェント構成を用いた実験結果は,エージェントが多数の項目,その位置,方向を含む広範囲な命令を正確に解釈する能力を示す。
このエージェントは、レッドストーン駆動システムのような内部機能を備えた複雑な構造をうまく生成する。
A/Bテストは、メモリモジュールを組み込むことでパフォーマンスが大幅に向上し、継続的学習と蓄積した経験の再利用を可能にする役割を強調していることを示している。
さらに、このエージェントの予期せぬ足場行動の出現は、将来のLDM駆動エージェントがサブルーチン計画を利用し、LDMの出現能力を活用して、人間のような問題解決技術を自律的に開発する可能性を強調している。
関連論文リスト
- A Survey on Large Language Models with some Insights on their Capabilities and Limitations [0.3222802562733786]
大規模言語モデル(LLM)は、様々な言語関連タスクで顕著なパフォーマンスを示す。
LLMは、そのコア機能を超えて、創発的な能力を示す。
本稿では,これらの機能を実現する基盤となるコンポーネント,スケーリング機構,アーキテクチャ戦略について検討する。
論文 参考訳(メタデータ) (2025-01-03T21:04:49Z) - AgentSquare: Automatic LLM Agent Search in Modular Design Space [16.659969168343082]
大規模言語モデル(LLM)は、幅広い複雑なタスクを処理できるエージェントシステムの急速な成長をもたらした。
Modularized LLM Agent Search (MoLAS) という新しい研究課題を紹介した。
論文 参考訳(メタデータ) (2024-10-08T15:52:42Z) - LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents [0.0]
LLM-Agent-UMF(LLM-Agent-UMF)に基づく新しいエージェント統一モデリングフレームワークを提案する。
我々のフレームワークはLLMエージェントの異なるコンポーネントを区別し、LLMとツールを新しい要素であるコアエージェントから分離する。
我々は,13の最先端エージェントに適用し,それらの機能との整合性を実証することによって,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2024-09-17T17:54:17Z) - Configurable Foundation Models: Building LLMs from a Modular Perspective [115.63847606634268]
LLMを多数の機能モジュールに分解する傾向が高まり、複雑なタスクに取り組むためにモジュールの一部とモジュールの動的アセンブリを推論することができる。
各機能モジュールを表すブロックという用語を造語し、モジュール化された構造をカスタマイズ可能な基礎モデルとして定義する。
検索とルーティング,マージ,更新,成長という,レンガ指向の4つの操作を提示する。
FFN層はニューロンの機能的特殊化と機能的ニューロン分割を伴うモジュラーパターンに従うことが判明した。
論文 参考訳(メタデータ) (2024-09-04T17:01:02Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation [81.32722475387364]
大規模言語モデルに基づくエージェントが注目され、ますます人気が高まっている。
計画能力は LLM ベースのエージェントの重要な構成要素であり、通常は初期状態から望ましい目標を達成する必要がある。
近年の研究では、専門家レベルの軌跡を指導訓練用LLMに活用することで、効果的に計画能力を向上させることが示されている。
論文 参考訳(メタデータ) (2024-08-01T17:59:46Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - TPTU: Large Language Model-based AI Agents for Task Planning and Tool
Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。
LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。
本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T09:22:03Z) - A Consciousness-Inspired Planning Agent for Model-Based Reinforcement
Learning [104.3643447579578]
本稿では、その状態の関連部分に動的に対応できるエンドツーエンドのモデルベース深層強化学習エージェントを提案する。
この設計により、エージェントは関連するオブジェクトに参画することで効果的に計画を学ぶことができ、配布外一般化がより良くなる。
論文 参考訳(メタデータ) (2021-06-03T19:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。