Fugu-MT 論文翻訳(概要): Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory

論文の概要: Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory

arxiv url: http://arxiv.org/abs/2305.17144v2
Date: Thu, 1 Jun 2023 09:18:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 21:14:50.297115
Title: Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory
Title（参考訳）: ghost in the minecraft: テキストベースの知識とメモリを持つ大規模言語モデルによるオープンワールド環境のエージェント
Authors: Xizhou Zhu, Yuntao Chen, Hao Tian, Chenxin Tao, Weijie Su, Chenyu Yang, Gao Huang, Bin Li, Lewei Lu, Xiaogang Wang, Yu Qiao, Zhaoxiang Zhang, Jifeng Dai
Abstract要約: Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。 LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
参考スコア（独自算出の注目度）: 97.87093169454431
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The captivating realm of Minecraft has attracted substantial research interest in recent years, serving as a rich platform for developing intelligent agents capable of functioning in open-world environments. However, the current research landscape predominantly focuses on specific objectives, such as the popular "ObtainDiamond" task, and has not yet shown effective generalization to a broader spectrum of tasks. Furthermore, the current leading success rate for the "ObtainDiamond" task stands at around 20%, highlighting the limitations of Reinforcement Learning (RL) based controllers used in existing methods. To tackle these challenges, we introduce Ghost in the Minecraft (GITM), a novel framework integrates Large Language Models (LLMs) with text-based knowledge and memory, aiming to create Generally Capable Agents (GCAs) in Minecraft. These agents, equipped with the logic and common sense capabilities of LLMs, can skillfully navigate complex, sparse-reward environments with text-based interactions. We develop a set of structured actions and leverage LLMs to generate action plans for the agents to execute. The resulting LLM-based agent markedly surpasses previous methods, achieving a remarkable improvement of +47.5% in success rate on the "ObtainDiamond" task, demonstrating superior robustness compared to traditional RL-based controllers. Notably, our agent is the first to procure all items in the Minecraft Overworld technology tree, demonstrating its extensive capabilities. GITM does not need any GPU for training, but a single CPU node with 32 CPU cores is enough. This research shows the potential of LLMs in developing capable agents for handling long-horizon, complex tasks and adapting to uncertainties in open-world environments. See the project website at https://github.com/OpenGVLab/GITM.
Abstract（参考訳）: 近年、Minecraftの魅惑的な領域は、オープンワールド環境で機能するインテリジェントエージェントを開発するための豊富なプラットフォームとして、かなりの研究関心を集めている。しかし、現在の研究の展望は主に一般的な「オブタンダイアモンド」タスクのような特定の目的に焦点を当てており、より広い範囲のタスクに対して効果的な一般化をまだ示していない。さらに、"ObtainDiamond"タスクの現在の成功率は約20%であり、既存のメソッドで使用される強化学習(RL)ベースのコントローラの制限を強調している。これらの課題に対処するために、Ghost in the Minecraft (GITM)という、テキストベースの知識と記憶とLarge Language Models (LLM)を統合した新しいフレームワークを紹介します。これらのエージェントはLLMの論理的・常識的能力を備えており、テキストベースのインタラクションで複雑な疎逆環境を巧みにナビゲートすることができる。我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。結果として生じるLCMベースのエージェントは、従来のRLベースのコントローラよりも優れたロバスト性を示し、"ObtainDiamond"タスクで+47.5%の成功率を著しく向上させた。特に、当社のエージェントはminecraft overworld technology treeのすべてのアイテムを初めて入手し、その広範な機能を示しました。 GITMはトレーニングにGPUを必要としないが、32CPUコアを持つ単一のCPUノードで十分である。本研究は,LLMが長期の複雑なタスクに対処し,オープンワールド環境における不確実性に適応するための有能なエージェントを開発する可能性を示す。プロジェクトのWebサイトはhttps://github.com/OpenGVLab/GITMを参照してください。

関連論文リスト

Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts [54.21319853862452]
Minecraftの汎用エージェントOptimus-3を提案する。エージェント開発のためのスケーラブルで高品質なトレーニングデータを提供するための知識強化型データ生成パイプラインを提案する。視覚的多様性に対するエージェントの推論能力を高めるために,マルチモーダル推論強化学習手法を開発した。
論文参考訳（メタデータ） (2025-06-12T05:29:40Z)
Collaborating Action by Action: A Multi-agent LLM Framework for Embodied Reasoning [12.923902619187274]
この研究は、LLMが複雑な具体的推論タスクを実行するために適応的に協調する方法について研究する。 MINDcraftは、LLMエージェントがMinecraftのオープンワールドゲームでキャラクターを制御できるようにするプラットフォームである。実験により、現在最先端のエージェントに効果的に協力する際の主要なボトルネックは、効率的な自然言語通信であることがわかった。
論文参考訳（メタデータ） (2025-04-24T21:28:16Z)
Large Action Models: From Inception to Implementation [51.81485642442344]
大規模アクションモデル(LAM)は動的環境内でのアクション生成と実行のために設計されている。 LAMは、AIを受動的言語理解からアクティブなタスク完了に変換する可能性を秘めている。創発から展開まで,LAMを体系的に開発するための総合的なフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-13T11:19:56Z)
VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。 VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文参考訳（メタデータ） (2024-08-12T17:44:17Z)
Odyssey: Empowering Minecraft Agents with Open-World Skills [26.537984734738764]
Odysseyは、LLM(Large Language Model)ベースのエージェントにオープンワールドスキルを付与し、Minecraftの世界を探索する新しいフレームワークである。 Odysseyは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェント,(2)Minecraft Wikiから派生した390k以上のインストラクションインストラクションを持つ大規模質問応答データセット上で訓練された微調整LLaMA-3モデル,(3)新しいエージェント能力ベンチマークの3つの重要な部分から構成される。
論文参考訳（メタデータ） (2024-07-22T02:06:59Z)
LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。 LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文参考訳（メタデータ） (2024-04-28T16:50:12Z)
Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub [79.31134731122462]
オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。我々は,オープンドメインの進化するクエリに,GitHubから専門ツールを自律的に統合することで対処できる,新しいLLMベースのエージェントシステムであるOpenAgentを紹介する。
論文参考訳（メタデータ） (2023-12-28T15:47:30Z)
See and Think: Embodied Agent in Virtual Environment [12.801720916220823]
大規模言語モデル(LLM)は、いくつかのオープンワールドタスクにおいて印象的な進歩を遂げた。本稿では,Minecraft仮想環境における包括的で視覚的なエンボディエージェントであるSTEVEを提案する。
論文参考訳（メタデータ） (2023-11-26T06:38:16Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文参考訳（メタデータ） (2023-04-10T03:55:35Z)
Reinforcement Learning Friendly Vision-Language Model for Minecraft [31.863271032186038]
クロスモーダルなコントラスト学習フレームワークであるCLIP4MCを提案する。オープンなタスクに対する本質的な報酬関数として機能する強化学習(RL)フレンドリな視覚言語モデル(VLM)を学習することを目的としている。提案手法は,ベースラインよりもRLタスクの性能がよいことを示す。
論文参考訳（メタデータ） (2023-03-19T05:20:52Z)
MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge [70.47759528596711]
私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
論文参考訳（メタデータ） (2022-06-17T15:53:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。