Fugu-MT 論文翻訳(概要): Voyager: An Open-Ended Embodied Agent with Large Language Models

論文の概要: Voyager: An Open-Ended Embodied Agent with Large Language Models

arxiv url: http://arxiv.org/abs/2305.16291v1
Date: Thu, 25 May 2023 17:46:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 13:22:34.558990
Title: Voyager: An Open-Ended Embodied Agent with Large Language Models
Title（参考訳）: Voyager: 大規模言語モデルを備えたオープンエンベッド型エージェント
Authors: Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, Anima Anandkumar
Abstract要約: VoyagerはMinecraft初の生涯学習エージェントだ。常に世界を探索し、多様なスキルを身につけ、人間の介入なしに新しい発見を行う。 Voyagerは、Minecraftの新しい世界で学んだスキルライブラリを利用して、新しいタスクをゼロから解決することができる。
参考スコア（独自算出の注目度）: 75.075729397661
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Voyager, the first LLM-powered embodied lifelong learning agent in Minecraft that continuously explores the world, acquires diverse skills, and makes novel discoveries without human intervention. Voyager consists of three key components: 1) an automatic curriculum that maximizes exploration, 2) an ever-growing skill library of executable code for storing and retrieving complex behaviors, and 3) a new iterative prompting mechanism that incorporates environment feedback, execution errors, and self-verification for program improvement. Voyager interacts with GPT-4 via blackbox queries, which bypasses the need for model parameter fine-tuning. The skills developed by Voyager are temporally extended, interpretable, and compositional, which compounds the agent's abilities rapidly and alleviates catastrophic forgetting. Empirically, Voyager shows strong in-context lifelong learning capability and exhibits exceptional proficiency in playing Minecraft. It obtains 3.3x more unique items, travels 2.3x longer distances, and unlocks key tech tree milestones up to 15.3x faster than prior SOTA. Voyager is able to utilize the learned skill library in a new Minecraft world to solve novel tasks from scratch, while other techniques struggle to generalize. We open-source our full codebase and prompts at https://voyager.minedojo.org/.
Abstract（参考訳）: LLMを用いた最初の生涯学習エージェントであるVoyagerを紹介した。これはMinecraftにおいて、世界を継続的に探索し、多様なスキルを習得し、人間の介入なしに新しい発見を行う。 voyagerは3つの重要なコンポーネントで構成されている。 1)探索を最大化する自動カリキュラム 2)複雑な行動の保存及び検索のための実行可能なコードの継続的な成長スキルライブラリ。 3)環境フィードバック,実行エラー,プログラム改善のための自己検証を含む,新たな反復的プロンプト機構。 Voyagerはブラックボックスクエリを通じてGPT-4と対話し、モデルパラメータの微調整の必要性を回避している。ボイジャーによって開発されたスキルは時間的に拡張され、解釈され、構成され、エージェントの能力は急速に複合され、破滅的な忘れを和らげる。実証的に、Voyagerはコンテキスト内での生涯学習能力を示し、Minecraftの演奏に非常に優れた能力を示している。 3.3倍のユニークなアイテムを入手し、2.3倍長い距離を移動し、主要な技術ツリーのマイルストーンを以前のSOTAよりも15.3倍速くアンロックする。 Voyagerは、Minecraftの新しい世界で学んだスキルライブラリを使って、新しいタスクをゼロから解決し、他のテクニックは一般化に苦慮している。私たちは完全なコードベースをオープンソース化し、https://voyager.minedojo.org/でプロンプトします。

関連論文リスト

VoyagerVision: Investigating the Role of Multi-modal Information for Open-ended Learning Systems [50.97354139604596]
本稿では、スクリーンショットを視覚的フィードバックの一形態として利用してMinecraft内で構造を作成できるVoyagerVisionを提案する。ボイジャーヴィジョンは平らな世界での全ての試みの半分で成功し、ほとんどの失敗はより複雑な構造で発生した。
論文参考訳（メタデータ） (2025-06-29T14:16:11Z)
Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills [57.740236400672046]
本稿では,知識不足の問題に対処するため,階層型マルチモーダルスキル(HMS)モジュールを提案する。トラジェクトリを実行スキル、コアスキル、そして最終的にはメタスキルに徐々に抽象化し、長期のタスク計画のための階層的な知識構造を提供する。ドメインギャップを埋めるために,Skill-Augmented Monte Carlo Tree Search (SA-MCTS)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-12T06:21:19Z)
Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts [54.21319853862452]
Minecraftの汎用エージェントOptimus-3を提案する。エージェント開発のためのスケーラブルで高品質なトレーニングデータを提供するための知識強化型データ生成パイプラインを提案する。視覚的多様性に対するエージェントの推論能力を高めるために,マルチモーダル推論強化学習手法を開発した。
論文参考訳（メタデータ） (2025-06-12T05:29:40Z)
Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation [66.95956271144982]
本稿では,単一画像から一貫した3Dポイントクラウドシーケンスを生成する新しいビデオ拡散フレームワークであるVoyagerを紹介する。既存のアプローチとは異なり、Voyagerはフレーム間で固有の一貫性を持って、エンドツーエンドのシーン生成と再構築を実現している。
論文参考訳（メタデータ） (2025-06-04T17:59:04Z)
MindForge: Empowering Embodied Agents with Theory of Mind for Lifelong Collaborative Learning [3.187381965457262]
Colllabvoyagerは、露骨な視点を取ることで、ボイジャーを生涯の協調学習で強化する新しいフレームワークである。コラボボヤガーは、(1)知覚、信念、欲求、行動をリンクするマインド表現の理論、(2)エージェント間の自然言語コミュニケーション、(3)タスクと環境知識のセマンティックメモリの3つの重要なイノベーションを紹介している。混合実験のMinecraft実験では、共同作業員はボイジャーのエージェントよりも優れており、作業完了率は6.6% (+39.4%) で1ブロックの土を集め、70.8% (+20.8%) で大幅に改善した。
論文参考訳（メタデータ） (2024-11-20T02:10:44Z)
O1 Replication Journey: A Strategic Progress Report -- Part 1 [52.062216849476776]
本稿では,O1 Replication Journeyに具体化された人工知能研究の先駆的アプローチを紹介する。我々の方法論は、長期化したチームベースのプロジェクトの不規則性を含む、現代のAI研究における重要な課題に対処する。本稿では,モデルにショートカットだけでなく,完全な探索プロセスの学習を促す旅行学習パラダイムを提案する。
論文参考訳（メタデータ） (2024-10-08T15:13:01Z)
Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks [50.13429055093534]
上記の課題に対処するために,ハイブリッドマルチモーダルメモリモジュールを提案する。知識を階層的指向知識グラフに変換することで,エージェントが世界知識を明示的に表現し,学習することが可能になる。また、過去の情報を抽象化されたマルチモーダル体験プールにまとめ、エージェントにコンテキスト内学習のための豊富な参照を提供する。 Hybrid Multimodal Memoryモジュールの上に、Optimus-1というマルチモーダルエージェントが、専用の知識誘導プランナーと経験駆動リフレクタで構築されている。
論文参考訳（メタデータ） (2024-08-07T08:16:32Z)
Odyssey: Empowering Minecraft Agents with Open-World Skills [26.537984734738764]
Odysseyは、LLM(Large Language Model)ベースのエージェントにオープンワールドスキルを付与し、Minecraftの世界を探索する新しいフレームワークである。 Odysseyは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェント,(2)Minecraft Wikiから派生した390k以上のインストラクションインストラクションを持つ大規模質問応答データセット上で訓練された微調整LLaMA-3モデル,(3)新しいエージェント能力ベンチマークの3つの重要な部分から構成される。
論文参考訳（メタデータ） (2024-07-22T02:06:59Z)
See and Think: Embodied Agent in Virtual Environment [12.801720916220823]
大規模言語モデル(LLM)は、いくつかのオープンワールドタスクにおいて印象的な進歩を遂げた。本稿では,Minecraft仮想環境における包括的で視覚的なエンボディエージェントであるSTEVEを提案する。
論文参考訳（メタデータ） (2023-11-26T06:38:16Z)
JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models [38.77967315158286]
マルチモーダル入力(視覚観察と人間の指示)を知覚できるオープンワールドエージェントJARVIS-1を紹介する。我々は,JARVIS-1をマルチモーダルメモリで構成し,事前学習した知識と実際のゲームサバイバル体験の両方を用いたプランニングを容易にする。 JARVIS-1はマインクラフトで最も一般的なエージェントであり、人間に似た制御と観測空間を用いて200以上のタスクを完了することができる。
論文参考訳（メタデータ） (2023-11-10T11:17:58Z)
Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。 LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文参考訳（メタデータ） (2023-05-25T17:59:49Z)
Lana: A Language-Capable Navigator for Instruction Following and Generation [70.76686546473994]
LANAは言語対応のナビゲーションエージェントで、人書きのナビゲーションコマンドを実行し、人へのルート記述を提供することができる。我々は、最近の高度なタスク固有解と比較して、LANAが命令追従と経路記述の両方においてより良い性能を発揮することを実証的に検証した。加えて、言語生成能力が与えられたLANAは、人間の行動を説明し、人間のウェイフィンディングを支援することができる。
論文参考訳（メタデータ） (2023-03-15T07:21:28Z)
MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge [70.47759528596711]
私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
論文参考訳（メタデータ） (2022-06-17T15:53:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。