論文の概要: Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory
- arxiv url: http://arxiv.org/abs/2305.17144v2
- Date: Thu, 1 Jun 2023 09:18:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 21:14:50.297115
- Title: Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory
- Title(参考訳): ghost in the minecraft: テキストベースの知識とメモリを持つ大規模言語モデルによるオープンワールド環境のエージェント
- Authors: Xizhou Zhu, Yuntao Chen, Hao Tian, Chenxin Tao, Weijie Su, Chenyu
Yang, Gao Huang, Bin Li, Lewei Lu, Xiaogang Wang, Yu Qiao, Zhaoxiang Zhang,
Jifeng Dai
- Abstract要約: Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
- 参考スコア(独自算出の注目度): 97.87093169454431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The captivating realm of Minecraft has attracted substantial research
interest in recent years, serving as a rich platform for developing intelligent
agents capable of functioning in open-world environments. However, the current
research landscape predominantly focuses on specific objectives, such as the
popular "ObtainDiamond" task, and has not yet shown effective generalization to
a broader spectrum of tasks. Furthermore, the current leading success rate for
the "ObtainDiamond" task stands at around 20%, highlighting the limitations of
Reinforcement Learning (RL) based controllers used in existing methods. To
tackle these challenges, we introduce Ghost in the Minecraft (GITM), a novel
framework integrates Large Language Models (LLMs) with text-based knowledge and
memory, aiming to create Generally Capable Agents (GCAs) in Minecraft. These
agents, equipped with the logic and common sense capabilities of LLMs, can
skillfully navigate complex, sparse-reward environments with text-based
interactions. We develop a set of structured actions and leverage LLMs to
generate action plans for the agents to execute. The resulting LLM-based agent
markedly surpasses previous methods, achieving a remarkable improvement of
+47.5% in success rate on the "ObtainDiamond" task, demonstrating superior
robustness compared to traditional RL-based controllers. Notably, our agent is
the first to procure all items in the Minecraft Overworld technology tree,
demonstrating its extensive capabilities. GITM does not need any GPU for
training, but a single CPU node with 32 CPU cores is enough. This research
shows the potential of LLMs in developing capable agents for handling
long-horizon, complex tasks and adapting to uncertainties in open-world
environments. See the project website at https://github.com/OpenGVLab/GITM.
- Abstract(参考訳): 近年、Minecraftの魅惑的な領域は、オープンワールド環境で機能するインテリジェントエージェントを開発するための豊富なプラットフォームとして、かなりの研究関心を集めている。
しかし、現在の研究の展望は主に一般的な「オブタンダイアモンド」タスクのような特定の目的に焦点を当てており、より広い範囲のタスクに対して効果的な一般化をまだ示していない。
さらに、"ObtainDiamond"タスクの現在の成功率は約20%であり、既存のメソッドで使用される強化学習(RL)ベースのコントローラの制限を強調している。
これらの課題に対処するために、Ghost in the Minecraft (GITM)という、テキストベースの知識と記憶とLarge Language Models (LLM)を統合した新しいフレームワークを紹介します。
これらのエージェントはLLMの論理的・常識的能力を備えており、テキストベースのインタラクションで複雑な疎逆環境を巧みにナビゲートすることができる。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
結果として生じるLCMベースのエージェントは、従来のRLベースのコントローラよりも優れたロバスト性を示し、"ObtainDiamond"タスクで+47.5%の成功率を著しく向上させた。
特に、当社のエージェントはminecraft overworld technology treeのすべてのアイテムを初めて入手し、その広範な機能を示しました。
GITMはトレーニングにGPUを必要としないが、32CPUコアを持つ単一のCPUノードで十分である。
本研究は,LLMが長期の複雑なタスクに対処し,オープンワールド環境における不確実性に適応するための有能なエージェントを開発する可能性を示す。
プロジェクトのWebサイトはhttps://github.com/OpenGVLab/GITMを参照してください。
関連論文リスト
- RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - CLIP4MC: An RL-Friendly Vision-Language Model for Minecraft [32.447102147806206]
本稿では,新しいクロスモーダル・コントラスト学習フレームワークであるCLIP4MCを提案する。
我々は、オープンエンドタスクの報酬関数として機能するRLフレンドリーな視覚言語モデルを学ぶ。
我々は,MineDojoが提供する大規模YouTubeデータベースに基づいて,優れたYouTubeデータセットを構築した。
論文 参考訳(メタデータ) (2023-03-19T05:20:52Z) - MineDojo: Building Open-Ended Embodied Agents with Internet-Scale
Knowledge [70.47759528596711]
私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。
本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。
我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-17T15:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。