論文の概要: Odyssey: Empowering Minecraft Agents with Open-World Skills
- arxiv url: http://arxiv.org/abs/2407.15325v2
- Date: Mon, 07 Oct 2024 09:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:38:30.044498
- Title: Odyssey: Empowering Minecraft Agents with Open-World Skills
- Title(参考訳): Odyssey: Minecraftエージェントをオープンワールドスキルで強化する
- Authors: Shunyu Liu, Yaoru Li, Kongcheng Zhang, Zhenyu Cui, Wenkai Fang, Yuxuan Zheng, Tongya Zheng, Mingli Song,
- Abstract要約: Odysseyは、LLM(Large Language Model)ベースのエージェントにオープンワールドスキルを付与し、Minecraftの世界を探索する新しいフレームワークである。
Odysseyは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェント,(2)Minecraft Wikiから派生した390k以上のインストラクションインストラクションを持つ大規模質問応答データセット上で訓練された微調整LLaMA-3モデル,(3)新しいエージェント能力ベンチマークの3つの重要な部分から構成される。
- 参考スコア(独自算出の注目度): 26.537984734738764
- License:
- Abstract: Recent studies have delved into constructing generalist agents for open-world environments like Minecraft. Despite the encouraging results, existing efforts mainly focus on solving basic programmatic tasks, e.g., material collection and tool-crafting following the Minecraft tech-tree, treating the ObtainDiamond task as the ultimate goal. This limitation stems from the narrowly defined set of actions available to agents, requiring them to learn effective long-horizon strategies from scratch. Consequently, discovering diverse gameplay opportunities in the open world becomes challenging. In this work, we introduce Odyssey, a new framework that empowers Large Language Model (LLM)-based agents with open-world skills to explore the vast Minecraft world. Odyssey comprises three key parts: (1) An interactive agent with an open-world skill library that consists of 40 primitive skills and 183 compositional skills. (2) A fine-tuned LLaMA-3 model trained on a large question-answering dataset with 390k+ instruction entries derived from the Minecraft Wiki. (3) A new agent capability benchmark includes the long-term planning task, the dynamic-immediate planning task, and the autonomous exploration task. Extensive experiments demonstrate that the proposed Odyssey framework can effectively evaluate different capabilities of LLM-based agents. All datasets, model weights, and code are publicly available to motivate future research on more advanced autonomous agent solutions.
- Abstract(参考訳): 近年の研究では、Minecraftのようなオープンワールド環境のためのジェネラリストエージェントの構築が進められている。
有望な結果にもかかわらず、既存の取り組みは主に、Minecraftのテクツリーに続くマテリアルコレクションやツールクラフトといった基本的なプログラムタスクの解決に重点を置いており、ObtainDiamondタスクを究極のゴールとして扱う。
この制限は、エージェントが利用可能な狭義のアクションセットに起因し、スクラッチから効果的なロングホライゾン戦略を学ぶ必要がある。
その結果,オープンワールドにおける多様なゲームプレイ機会の発見が困難になる。
本研究では,大規模言語モデル(LLM)をベースとしたエージェントにオープンワールドのスキルを付与し,Minecraftの世界を探索する新たなフレームワークであるOdysseyを紹介する。
Odysseyは、(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェントである。
2) Minecraft Wikiから390k以上のインストラクションを抽出した大規模質問応答データセット上で学習した微調整LLaMA-3モデルについて検討した。
3)新しいエージェント能力ベンチマークには,長期計画タスク,動的即時計画タスク,自律探査タスクが含まれる。
大規模な実験により、提案したOdysseyフレームワークは、LLMベースのエージェントの異なる能力を効果的に評価できることが示されている。
すべてのデータセット、モデルウェイト、コードは公開されており、より高度な自律エージェントソリューションに関する将来の研究を動機付けている。
関連論文リスト
- DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - Luban: Building Open-Ended Creative Agents via Autonomous Embodied Verification [34.97881486372797]
オープンエージェントの構築は常にAI研究の最終的な目標であり、クリエイティブエージェントはより魅力的です。
エージェントがギャップを埋める自律的な実施検証手法を導入し、創造的なタスクの基盤を築き上げます。
具体的には,2段階の自律的実施検証を取り入れた,Minecraftにおける創造的建築タスクを目標とするLubanエージェントを提案する。
論文 参考訳(メタデータ) (2024-05-24T10:25:59Z) - Agent Planning with World Knowledge Model [88.4897773735576]
エージェント計画を容易にするためにパラメトリック世界知識モデル(WKM)を導入する。
我々はWKMを開発し、グローバルな計画と動的状態の知識を導くために、事前のタスク知識を提供する。
我々は、我々のWKMが視覚障害者の試行錯誤と幻覚的行動の問題を効果的に緩和できることを示すために分析を行った。
論文 参考訳(メタデータ) (2024-05-23T06:03:19Z) - See and Think: Embodied Agent in Virtual Environment [12.801720916220823]
大規模言語モデル(LLM)は、いくつかのオープンワールドタスクにおいて印象的な進歩を遂げた。
本稿では,Minecraft仮想環境における包括的で視覚的なエンボディエージェントであるSTEVEを提案する。
論文 参考訳(メタデータ) (2023-11-26T06:38:16Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - MineDojo: Building Open-Ended Embodied Agents with Internet-Scale
Knowledge [70.47759528596711]
私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。
本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。
我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-17T15:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。