論文の概要: Voyager: An Open-Ended Embodied Agent with Large Language Models
- arxiv url: http://arxiv.org/abs/2305.16291v1
- Date: Thu, 25 May 2023 17:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 13:22:34.558990
- Title: Voyager: An Open-Ended Embodied Agent with Large Language Models
- Title(参考訳): Voyager: 大規模言語モデルを備えたオープンエンベッド型エージェント
- Authors: Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao,
Yuke Zhu, Linxi Fan, Anima Anandkumar
- Abstract要約: VoyagerはMinecraft初の生涯学習エージェントだ。
常に世界を探索し、多様なスキルを身につけ、人間の介入なしに新しい発見を行う。
Voyagerは、Minecraftの新しい世界で学んだスキルライブラリを利用して、新しいタスクをゼロから解決することができる。
- 参考スコア(独自算出の注目度): 75.075729397661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Voyager, the first LLM-powered embodied lifelong learning agent
in Minecraft that continuously explores the world, acquires diverse skills, and
makes novel discoveries without human intervention. Voyager consists of three
key components: 1) an automatic curriculum that maximizes exploration, 2) an
ever-growing skill library of executable code for storing and retrieving
complex behaviors, and 3) a new iterative prompting mechanism that incorporates
environment feedback, execution errors, and self-verification for program
improvement. Voyager interacts with GPT-4 via blackbox queries, which bypasses
the need for model parameter fine-tuning. The skills developed by Voyager are
temporally extended, interpretable, and compositional, which compounds the
agent's abilities rapidly and alleviates catastrophic forgetting. Empirically,
Voyager shows strong in-context lifelong learning capability and exhibits
exceptional proficiency in playing Minecraft. It obtains 3.3x more unique
items, travels 2.3x longer distances, and unlocks key tech tree milestones up
to 15.3x faster than prior SOTA. Voyager is able to utilize the learned skill
library in a new Minecraft world to solve novel tasks from scratch, while other
techniques struggle to generalize. We open-source our full codebase and prompts
at https://voyager.minedojo.org/.
- Abstract(参考訳): LLMを用いた最初の生涯学習エージェントであるVoyagerを紹介した。これはMinecraftにおいて、世界を継続的に探索し、多様なスキルを習得し、人間の介入なしに新しい発見を行う。
voyagerは3つの重要なコンポーネントで構成されている。
1)探索を最大化する自動カリキュラム
2)複雑な行動の保存及び検索のための実行可能なコードの継続的な成長スキルライブラリ。
3)環境フィードバック,実行エラー,プログラム改善のための自己検証を含む,新たな反復的プロンプト機構。
Voyagerはブラックボックスクエリを通じてGPT-4と対話し、モデルパラメータの微調整の必要性を回避している。
ボイジャーによって開発されたスキルは時間的に拡張され、解釈され、構成され、エージェントの能力は急速に複合され、破滅的な忘れを和らげる。
実証的に、Voyagerはコンテキスト内での生涯学習能力を示し、Minecraftの演奏に非常に優れた能力を示している。
3.3倍のユニークなアイテムを入手し、2.3倍長い距離を移動し、主要な技術ツリーのマイルストーンを以前のSOTAよりも15.3倍速くアンロックする。
Voyagerは、Minecraftの新しい世界で学んだスキルライブラリを使って、新しいタスクをゼロから解決し、他のテクニックは一般化に苦慮している。
私たちは完全なコードベースをオープンソース化し、https://voyager.minedojo.org/でプロンプトします。
関連論文リスト
- MindForge: Empowering Embodied Agents with Theory of Mind for Lifelong Collaborative Learning [3.187381965457262]
Colllabvoyagerは、露骨な視点を取ることで、ボイジャーを生涯の協調学習で強化する新しいフレームワークである。
コラボボヤガーは、(1)知覚、信念、欲求、行動をリンクするマインド表現の理論、(2)エージェント間の自然言語コミュニケーション、(3)タスクと環境知識のセマンティックメモリの3つの重要なイノベーションを紹介している。
混合実験のMinecraft実験では、共同作業員はボイジャーのエージェントよりも優れており、作業完了率は6.6% (+39.4%) で1ブロックの土を集め、70.8% (+20.8%) で大幅に改善した。
論文 参考訳(メタデータ) (2024-11-20T02:10:44Z) - O1 Replication Journey: A Strategic Progress Report -- Part 1 [52.062216849476776]
本稿では,O1 Replication Journeyに具体化された人工知能研究の先駆的アプローチを紹介する。
我々の方法論は、長期化したチームベースのプロジェクトの不規則性を含む、現代のAI研究における重要な課題に対処する。
本稿では,モデルにショートカットだけでなく,完全な探索プロセスの学習を促す旅行学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-08T15:13:01Z) - Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks [50.13429055093534]
上記の課題に対処するために,ハイブリッドマルチモーダルメモリモジュールを提案する。
知識を階層的指向知識グラフに変換することで,エージェントが世界知識を明示的に表現し,学習することが可能になる。
また、過去の情報を抽象化されたマルチモーダル体験プールにまとめ、エージェントにコンテキスト内学習のための豊富な参照を提供する。
Hybrid Multimodal Memoryモジュールの上に、Optimus-1というマルチモーダルエージェントが、専用の知識誘導プランナーと経験駆動リフレクタで構築されている。
論文 参考訳(メタデータ) (2024-08-07T08:16:32Z) - Odyssey: Empowering Minecraft Agents with Open-World Skills [26.537984734738764]
Odysseyは、LLM(Large Language Model)ベースのエージェントにオープンワールドスキルを付与し、Minecraftの世界を探索する新しいフレームワークである。
Odysseyは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェント,(2)Minecraft Wikiから派生した390k以上のインストラクションインストラクションを持つ大規模質問応答データセット上で訓練された微調整LLaMA-3モデル,(3)新しいエージェント能力ベンチマークの3つの重要な部分から構成される。
論文 参考訳(メタデータ) (2024-07-22T02:06:59Z) - See and Think: Embodied Agent in Virtual Environment [12.801720916220823]
大規模言語モデル(LLM)は、いくつかのオープンワールドタスクにおいて印象的な進歩を遂げた。
本稿では,Minecraft仮想環境における包括的で視覚的なエンボディエージェントであるSTEVEを提案する。
論文 参考訳(メタデータ) (2023-11-26T06:38:16Z) - JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal
Language Models [38.77967315158286]
マルチモーダル入力(視覚観察と人間の指示)を知覚できるオープンワールドエージェントJARVIS-1を紹介する。
我々は,JARVIS-1をマルチモーダルメモリで構成し,事前学習した知識と実際のゲームサバイバル体験の両方を用いたプランニングを容易にする。
JARVIS-1はマインクラフトで最も一般的なエージェントであり、人間に似た制御と観測空間を用いて200以上のタスクを完了することができる。
論文 参考訳(メタデータ) (2023-11-10T11:17:58Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - Lana: A Language-Capable Navigator for Instruction Following and
Generation [70.76686546473994]
LANAは言語対応のナビゲーションエージェントで、人書きのナビゲーションコマンドを実行し、人へのルート記述を提供することができる。
我々は、最近の高度なタスク固有解と比較して、LANAが命令追従と経路記述の両方においてより良い性能を発揮することを実証的に検証した。
加えて、言語生成能力が与えられたLANAは、人間の行動を説明し、人間のウェイフィンディングを支援することができる。
論文 参考訳(メタデータ) (2023-03-15T07:21:28Z) - MineDojo: Building Open-Ended Embodied Agents with Internet-Scale
Knowledge [70.47759528596711]
私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。
本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。
我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-17T15:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。