論文の概要: Odyssey: Empowering Agents with Open-World Skills
- arxiv url: http://arxiv.org/abs/2407.15325v1
- Date: Mon, 22 Jul 2024 02:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 16:30:24.179485
- Title: Odyssey: Empowering Agents with Open-World Skills
- Title(参考訳): Odyssey: オープンワールドスキルを備えたエージェント
- Authors: Shunyu Liu, Yaoru Li, Kongcheng Zhang, Zhenyu Cui, Wenkai Fang, Yuxuan Zheng, Tongya Zheng, Mingli Song,
- Abstract要約: 我々は,大規模言語モデル(LLM)ベースのエージェントにオープンワールドスキルを付与し,Minecraftの世界を探索する新しいフレームワークODYSSEYを紹介する。
ODYSSEYは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェント,(2)Minecraft Wikiから390k以上の指示文を入力した大規模質問文データセットを用いた微調整LLaMA-3モデル,(3)新しいオープンワールドベンチマークには,数千の長期計画タスク,数十の動的即時計画タスク,1つの自律性が含まれている。
- 参考スコア(独自算出の注目度): 26.537984734738764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have delved into constructing generalist agents for open-world embodied environments like Minecraft. Despite the encouraging results, existing efforts mainly focus on solving basic programmatic tasks, e.g., material collection and tool-crafting following the Minecraft tech-tree, treating the ObtainDiamond task as the ultimate goal. This limitation stems from the narrowly defined set of actions available to agents, requiring them to learn effective long-horizon strategies from scratch. Consequently, discovering diverse gameplay opportunities in the open world becomes challenging. In this work, we introduce ODYSSEY, a new framework that empowers Large Language Model (LLM)-based agents with open-world skills to explore the vast Minecraft world. ODYSSEY comprises three key parts: (1) An interactive agent with an open-world skill library that consists of 40 primitive skills and 183 compositional skills. (2) A fine-tuned LLaMA-3 model trained on a large question-answering dataset with 390k+ instruction entries derived from the Minecraft Wiki. (3) A new open-world benchmark includes thousands of long-term planning tasks, tens of dynamic-immediate planning tasks, and one autonomous exploration task. Extensive experiments demonstrate that the proposed ODYSSEY framework can effectively evaluate the planning and exploration capabilities of agents. All datasets, model weights, and code are publicly available to motivate future research on more advanced autonomous agent solutions.
- Abstract(参考訳): 近年の研究では、Minecraftのようなオープンワールドな環境のためのジェネラリストエージェントの構築が進められている。
有望な結果にもかかわらず、既存の取り組みは主に、Minecraftのテクツリーに続くマテリアルコレクションやツールクラフトといった基本的なプログラムタスクの解決に重点を置いており、ObtainDiamondタスクを究極のゴールとして扱う。
この制限は、エージェントが利用可能な狭義のアクションセットに起因し、スクラッチから効果的なロングホライゾン戦略を学ぶ必要がある。
その結果,オープンワールドにおける多様なゲームプレイ機会の発見が困難になる。
本研究では,大規模言語モデル(LLM)をベースとしたエージェントにオープンワールドのスキルを付与し,Minecraftの世界を探索する新しいフレームワークODYSSEYを紹介する。
ODYSSEYは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェントである。
2) Minecraft Wikiから390k以上のインストラクションを抽出した大規模質問応答データセット上で学習した微調整LLaMA-3モデルについて検討した。
(3)新しいオープンワールドベンチマークには、数千の長期計画タスク、数十の動的即時計画タスク、そして1つの自律的な探索タスクが含まれている。
大規模実験により,提案するODYSSEYフレームワークはエージェントの計画と探索能力を効果的に評価できることが示された。
すべてのデータセット、モデルウェイト、コードは公開されており、より高度な自律エージェントソリューションに関する将来の研究を動機付けている。
関連論文リスト
- AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - Luban: Building Open-Ended Creative Agents via Autonomous Embodied Verification [34.97881486372797]
オープンエージェントの構築は常にAI研究の最終的な目標であり、クリエイティブエージェントはより魅力的です。
エージェントがギャップを埋める自律的な実施検証手法を導入し、創造的なタスクの基盤を築き上げます。
具体的には,2段階の自律的実施検証を取り入れた,Minecraftにおける創造的建築タスクを目標とするLubanエージェントを提案する。
論文 参考訳(メタデータ) (2024-05-24T10:25:59Z) - Agent Planning with World Knowledge Model [88.4897773735576]
エージェント計画を容易にするためにパラメトリック世界知識モデル(WKM)を導入する。
我々はWKMを開発し,グローバルプランニングと動的状態知識を指導し,地域プランニングを支援する。
本手法は, 各種の強靭なベースラインと比較して, 優れた性能が得られる。
論文 参考訳(メタデータ) (2024-05-23T06:03:19Z) - See and Think: Embodied Agent in Virtual Environment [12.801720916220823]
大規模言語モデル(LLM)は、いくつかのオープンワールドタスクにおいて印象的な進歩を遂げた。
本稿では,Minecraft仮想環境における包括的で視覚的なエンボディエージェントであるSTEVEを提案する。
論文 参考訳(メタデータ) (2023-11-26T06:38:16Z) - Agent Lumos: Unified and Modular Training for Open-Source Language Agents [89.78556964988852]
LUMOSは、オープンソースのLLMベースのエージェントをトレーニングするための最初のフレームワークの1つです。
LUMOSは、高レベルなサブゴール生成を学習する計画モジュールを備えた、学習可能で統一されたモジュラーアーキテクチャを備えている。
我々は、多様な地道理理性から導かれた大規模で統一的で高品質なトレーニングアノテーションを収集する。
論文 参考訳(メタデータ) (2023-11-09T00:30:13Z) - MCU: A Task-centric Framework for Open-ended Agent Evaluation in
Minecraft [28.585449904964033]
本稿では,Minecraftエージェント評価のためのタスク中心フレームワークであるMCUを紹介する。
MCUフレームワーク内では、各タスクは6つの異なる難易度スコアで測定される。
MCUはMinecraftエージェントの最近の文献で使われているタスクを全てカバーする表現力が高いことを示す。
論文 参考訳(メタデータ) (2023-10-12T14:38:25Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - MineDojo: Building Open-Ended Embodied Agents with Internet-Scale
Knowledge [70.47759528596711]
私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。
本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。
我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-17T15:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。