Fugu-MT 論文翻訳(概要): Octopus: Embodied Vision-Language Programmer from Environmental Feedback

論文の概要: Octopus: Embodied Vision-Language Programmer from Environmental Feedback

arxiv url: http://arxiv.org/abs/2310.08588v1
Date: Thu, 12 Oct 2023 17:59:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 08:16:19.227186
Title: Octopus: Embodied Vision-Language Programmer from Environmental Feedback
Title（参考訳）: octopus:環境フィードバックによる視覚言語プログラマの具体化
Authors: Jingkang Yang, Yuhao Dong, Shuai Liu, Bo Li, Ziyue Wang, Chencheng Jiang, Haoran Tan, Jiamu Kang, Yuanhan Zhang, Kaiyang Zhou, Ziwei Liu
Abstract要約: 大規模視覚言語モデル (VLM) はマルチモーダル認識と推論において大きな進歩を遂げた。本稿では,エージェントの視覚とテキストタスクの目的を正確に解読する新しいVLMであるOctopusを紹介する。我々の設計では、シミュレーターの日常的な雑用から複雑なビデオゲームの高度なインタラクションまで、エージェントは幅広いタスクを十分に扱えるようにしている。
参考スコア（独自算出の注目度）: 59.772904419928054
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large vision-language models (VLMs) have achieved substantial progress in multimodal perception and reasoning. Furthermore, when seamlessly integrated into an embodied agent, it signifies a crucial stride towards the creation of autonomous and context-aware systems capable of formulating plans and executing commands with precision. In this paper, we introduce Octopus, a novel VLM designed to proficiently decipher an agent's vision and textual task objectives and to formulate intricate action sequences and generate executable code. Our design allows the agent to adeptly handle a wide spectrum of tasks, ranging from mundane daily chores in simulators to sophisticated interactions in complex video games. Octopus is trained by leveraging GPT-4 to control an explorative agent to generate training data, i.e., action blueprints and the corresponding executable code, within our experimental environment called OctoVerse. We also collect the feedback that allows the enhanced training scheme of Reinforcement Learning with Environmental Feedback (RLEF). Through a series of experiments, we illuminate Octopus's functionality and present compelling results, and the proposed RLEF turns out to refine the agent's decision-making. By open-sourcing our model architecture, simulator, and dataset, we aspire to ignite further innovation and foster collaborative applications within the broader embodied AI community.
Abstract（参考訳）: 大規模視覚言語モデル (VLM) はマルチモーダル認識と推論において大きな進歩を遂げた。さらに、具体化エージェントにシームレスに統合すると、計画の策定やコマンドの実行を高精度に行える自律的・文脈対応システムの構築に向けた重要な一歩となる。本稿では,エージェントの視覚とテキストタスクの目的を正確に解読し,複雑なアクションシーケンスを定式化し,実行可能なコードを生成する新しいVLMであるOctopusを紹介する。我々の設計では、シミュレーターの日常的な雑用から複雑なビデオゲームの高度なインタラクションまで、エージェントは幅広いタスクを十分に処理できる。 Octopus は GPT-4 を利用して、OctoVerse と呼ばれる実験環境で、爆発的エージェントを制御してトレーニングデータ、すなわちアクションブループリントと対応する実行可能コードを生成する。また,環境フィードバックによる強化学習(rlef)の強化学習を可能としたフィードバックも収集した。一連の実験を通して、オクトパスの機能を照らし、説得力のある結果を示し、提案されたRLEFはエージェントの意思決定を洗練させることが判明した。モデルアーキテクチャ、シミュレータ、データセットをオープンソース化することで、私たちはさらなるイノベーションを刺激し、より広範なAIコミュニティ内で協調的なアプリケーションを育むことを目標にしています。

関連論文リスト

Learning to See and Act: Task-Aware View Planning for Robotic Manipulation [85.65102094981802]
Task-Aware View Planning (TAVP)は、アクティブなビュープランニングとタスク固有の表現学習を統合するために設計されたフレームワークである。提案したTAVPモデルは、最先端の固定ビューアプローチよりも優れた性能を実現する。
論文参考訳（メタデータ） (2025-08-07T09:21:20Z)
Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned Policy [50.13429055093534]
Optimus-2はMultimodal Large Language Model (MLLM)を組み込んだ新しいMinecraftエージェントである。我々は,8つのアトミックタスクにわたる25,000のビデオを含む,高品質なMinecraft Goal-Observation-Action(MGOA)データセットを紹介した。 Optimus-2は、アトミックタスク、ロングホライゾンタスク、マインクラフトのオープンエンド命令タスクにまたがる優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2025-02-27T09:18:04Z)
A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards [29.923942622540356]
動的タスク仕様として機能するPythonベースの報酬関数であるIterative Keypoint Reward(IKER)を紹介する。我々はシミュレーションで現実のシーンを再構築し、生成した報酬を使って強化学習ポリシーを訓練する。この結果から,ロボットが動的環境下で複数ステップのタスクを行えるようにしたIKERの有効性が示唆された。
論文参考訳（メタデータ） (2025-02-12T18:57:22Z)
UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI [37.47562766916571]
Unreal Engine上に構築された写真リアルな3Dバーチャルワールドの豊富なコレクションであるUnrealZooを紹介します。エンボディされたAIエージェントには、さまざまなプレイ可能なエンティティを提供しています。
論文参考訳（メタデータ） (2024-12-30T14:31:01Z)
Large Action Models: From Inception to Implementation [51.81485642442344]
大規模アクションモデル(LAM)は動的環境内でのアクション生成と実行のために設計されている。 LAMは、AIを受動的言語理解からアクティブなタスク完了に変換する可能性を秘めている。創発から展開まで,LAMを体系的に開発するための総合的なフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-13T11:19:56Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。 LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文参考訳（メタデータ） (2024-04-28T16:50:12Z)
MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。 MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文参考訳（メタデータ） (2024-02-01T02:43:20Z)
Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in Open Worlds [37.22688246779871]
大型言語モデル(LLM)は、世界と対話する自己駆動能力を持つエンボディエージェントを装備できる。 LLMはオープン世界の視覚的豊かさを見落とし、インタラクティブなプロセス全体を「目隠しされたテキストベースのゲーム」のように表現する傾向がある。我々は、この制限に対処するために、エンドツーエンドで訓練された大規模マルチモーダルモデルであるSteve-Eyeを提案する。
論文参考訳（メタデータ） (2023-10-20T03:22:05Z)
Learning of Generalizable and Interpretable Knowledge in Grid-Based Reinforcement Learning Environments [5.217870815854702]
本稿では,強化学習ポリシーを模倣するプログラム合成を提案する。我々は,グリッド環境における概念学習に最先端のプログラム合成システムDreamCoderを適用した。
論文参考訳（メタデータ） (2023-09-07T11:46:57Z)
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文参考訳（メタデータ） (2023-07-12T07:40:48Z)
Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文参考訳（メタデータ） (2023-07-04T17:58:25Z)
AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文参考訳（メタデータ） (2023-05-30T09:54:20Z)
Chat with the Environment: Interactive Multimodal Perception Using Large Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文参考訳（メタデータ） (2023-03-14T23:01:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。