論文の概要: Voyager: An Open-Ended Embodied Agent with Large Language Models
- arxiv url: http://arxiv.org/abs/2305.16291v2
- Date: Thu, 19 Oct 2023 16:27:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 20:11:57.904560
- Title: Voyager: An Open-Ended Embodied Agent with Large Language Models
- Title(参考訳): Voyager: 大規模言語モデルを備えたオープンエンベッド型エージェント
- Authors: Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao,
Yuke Zhu, Linxi Fan, Anima Anandkumar
- Abstract要約: VoyagerはMinecraft初の生涯学習エージェントだ。
常に世界を探索し、多様なスキルを身につけ、人間の介入なしに新しい発見を行う。
Voyagerは、Minecraftの新しい世界で学んだスキルライブラリを利用して、新しいタスクをゼロから解決することができる。
- 参考スコア(独自算出の注目度): 103.76509266014165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Voyager, the first LLM-powered embodied lifelong learning agent
in Minecraft that continuously explores the world, acquires diverse skills, and
makes novel discoveries without human intervention. Voyager consists of three
key components: 1) an automatic curriculum that maximizes exploration, 2) an
ever-growing skill library of executable code for storing and retrieving
complex behaviors, and 3) a new iterative prompting mechanism that incorporates
environment feedback, execution errors, and self-verification for program
improvement. Voyager interacts with GPT-4 via blackbox queries, which bypasses
the need for model parameter fine-tuning. The skills developed by Voyager are
temporally extended, interpretable, and compositional, which compounds the
agent's abilities rapidly and alleviates catastrophic forgetting. Empirically,
Voyager shows strong in-context lifelong learning capability and exhibits
exceptional proficiency in playing Minecraft. It obtains 3.3x more unique
items, travels 2.3x longer distances, and unlocks key tech tree milestones up
to 15.3x faster than prior SOTA. Voyager is able to utilize the learned skill
library in a new Minecraft world to solve novel tasks from scratch, while other
techniques struggle to generalize. We open-source our full codebase and prompts
at https://voyager.minedojo.org/.
- Abstract(参考訳): LLMを用いた最初の生涯学習エージェントであるVoyagerを紹介した。これはMinecraftにおいて、世界を継続的に探索し、多様なスキルを習得し、人間の介入なしに新しい発見を行う。
voyagerは3つの重要なコンポーネントで構成されている。
1)探索を最大化する自動カリキュラム
2)複雑な行動の保存及び検索のための実行可能なコードの継続的な成長スキルライブラリ。
3)環境フィードバック,実行エラー,プログラム改善のための自己検証を含む,新たな反復的プロンプト機構。
Voyagerはブラックボックスクエリを通じてGPT-4と対話し、モデルパラメータの微調整の必要性を回避している。
ボイジャーによって開発されたスキルは時間的に拡張され、解釈され、構成され、エージェントの能力は急速に複合され、破滅的な忘れを和らげる。
実証的に、Voyagerはコンテキスト内での生涯学習能力を示し、Minecraftの演奏に非常に優れた能力を示している。
3.3倍のユニークなアイテムを入手し、2.3倍長い距離を移動し、主要な技術ツリーのマイルストーンを以前のSOTAよりも15.3倍速くアンロックする。
Voyagerは、Minecraftの新しい世界で学んだスキルライブラリを使って、新しいタスクをゼロから解決し、他のテクニックは一般化に苦慮している。
私たちは完全なコードベースをオープンソース化し、https://voyager.minedojo.org/でプロンプトします。
関連論文リスト
- Imitating Shortest Paths in Simulation Enables Effective Navigation and
Manipulation in the Real World [46.977470141707315]
シミュレーションにおける最短経路プランナーの模倣は、オブジェクトを巧みにナビゲートし、探索し、操作できるエージェントを生み出すことを示す。
この驚くべき結果は、エンドツーエンドのトランスフォーマーベースのSPOCアーキテクチャ、広範な画像拡張と組み合わせた強力なビジュアルエンコーダによって実現されます。
論文 参考訳(メタデータ) (2023-12-05T18:59:45Z) - JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal
Language Models [38.77967315158286]
マルチモーダル入力(視覚観察と人間の指示)を知覚できるオープンワールドエージェントJARVIS-1を紹介する。
我々は,JARVIS-1をマルチモーダルメモリで構成し,事前学習した知識と実際のゲームサバイバル体験の両方を用いたプランニングを容易にする。
JARVIS-1はマインクラフトで最も一般的なエージェントであり、人間に似た制御と観測空間を用いて200以上のタスクを完了することができる。
論文 参考訳(メタデータ) (2023-11-10T11:17:58Z) - HomeRobot: Open-Vocabulary Mobile Manipulation [107.05702777141178]
Open-Vocabulary Mobile Manipulation (OVMM) は、目に見えない環境で任意のオブジェクトを選択し、命令された場所に配置する問題である。
HomeRobotには2つのコンポーネントがある。シミュレーションコンポーネントは、新しい高品質のマルチルームホーム環境に、大規模で多様なキュレートされたオブジェクトセットを使用する。
論文 参考訳(メタデータ) (2023-06-20T14:30:32Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - Lana: A Language-Capable Navigator for Instruction Following and
Generation [70.76686546473994]
LANAは言語対応のナビゲーションエージェントで、人書きのナビゲーションコマンドを実行し、人へのルート記述を提供することができる。
我々は、最近の高度なタスク固有解と比較して、LANAが命令追従と経路記述の両方においてより良い性能を発揮することを実証的に検証した。
加えて、言語生成能力が与えられたLANAは、人間の行動を説明し、人間のウェイフィンディングを支援することができる。
論文 参考訳(メタデータ) (2023-03-15T07:21:28Z) - MineDojo: Building Open-Ended Embodied Agents with Internet-Scale
Knowledge [70.47759528596711]
私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。
本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。
我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-17T15:53:05Z) - Lipschitz-constrained Unsupervised Skill Discovery [91.51219447057817]
LSD(Lipschitz-Constrained Skill Discovery)は、エージェントがより多様性があり、ダイナミックで、より遠縁なスキルを発見することを奨励する。
LSDは7つの下流タスクにおいて、スキルの多様性、状態空間のカバレッジ、パフォーマンスという点で、従来のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-02-02T08:29:04Z) - Out of the Box: Embodied Navigation in the Real World [45.97756658635314]
シミュレーションで得られた知識を現実世界に伝達する方法を示す。
モデルは1台のIntel RealSenseカメラを搭載したLoCoBotにデプロイします。
本実験では,得られたモデルを実世界に展開することで,満足のいく結果が得られることを示した。
論文 参考訳(メタデータ) (2021-05-12T18:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。