論文の概要: ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting
- arxiv url: http://arxiv.org/abs/2410.17856v1
- Date: Wed, 23 Oct 2024 13:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:57:02.879037
- Title: ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting
- Title(参考訳): ROCKET-1:ビジュアル・テンポラル・コンテキスト・プロンプティングによるオープンワールドインタラクション
- Authors: Shaofei Cai, Zihao Wang, Kewei Lian, Zhancun Mu, Xiaojian Ma, Anji Liu, Yitao Liang,
- Abstract要約: 視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。
鍵となる問題は、低レベルの観測において個々のエンティティと計画に必要な抽象概念をスムーズに結合することの難しさである。
VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストプロンプトを提案する。
- 参考スコア(独自算出の注目度): 24.56720920528011
- License:
- Abstract: Vision-language models (VLMs) have excelled in multimodal tasks, but adapting them to embodied decision-making in open-world environments presents challenges. A key issue is the difficulty in smoothly connecting individual entities in low-level observations with abstract concepts required for planning. A common approach to address this problem is through the use of hierarchical agents, where VLMs serve as high-level reasoners that break down tasks into executable sub-tasks, typically specified using language and imagined observations. However, language often fails to effectively convey spatial information, while generating future images with sufficient accuracy remains challenging. To address these limitations, we propose visual-temporal context prompting, a novel communication protocol between VLMs and policy models. This protocol leverages object segmentation from both past and present observations to guide policy-environment interactions. Using this approach, we train ROCKET-1, a low-level policy that predicts actions based on concatenated visual observations and segmentation masks, with real-time object tracking provided by SAM-2. Our method unlocks the full potential of VLMs visual-language reasoning abilities, enabling them to solve complex creative tasks, especially those heavily reliant on spatial understanding. Experiments in Minecraft demonstrate that our approach allows agents to accomplish previously unattainable tasks, highlighting the effectiveness of visual-temporal context prompting in embodied decision-making. Codes and demos will be available on the project page: https://craftjarvis.github.io/ROCKET-1.
- Abstract(参考訳): 視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。
鍵となる問題は、低レベルの観測において個々のエンティティと計画に必要な抽象概念をスムーズに結合することの難しさである。
この問題に対処するための一般的なアプローチは階層的エージェントを使用することで、VLMはタスクを実行可能なサブタスクに分割する高レベルな推論器として機能する。
しかし,言語は空間情報を効果的に伝達することができず,将来像を十分な精度で生成することは困難である。
これらの制約に対処するため、VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストプロンプトを提案する。
このプロトコルは、過去と現在の両方の観測からオブジェクトのセグメンテーションを活用し、ポリシーと環境の相互作用を導く。
提案手法を用いて,SAM-2 によるリアルタイム物体追跡により,統合された視覚観測とセグメンテーションマスクに基づく行動予測を行う低レベルポリシー ROCKET-1 を訓練する。
我々の手法はVLMの視覚言語推論能力の最大限の可能性を解き、複雑な創造的タスク、特に空間的理解に大きく依存するタスクを解くことができる。
Minecraftの実験では、我々の手法は、エージェントが事前に達成不可能なタスクを達成できることを示し、具体的意思決定において視覚的時間的文脈の有効性を強調している。
コードとデモはプロジェクトのページで見ることができる。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Bridging Environments and Language with Rendering Functions and Vision-Language Models [7.704773649029078]
視覚言語モデル(VLM)は、基底言語に非常に大きな可能性を秘めている。
本稿では,言語条件付きエージェント(LCA)構築問題の新しい分解法を提案する。
また,VLMを用いたLCAの高速化と品質向上についても検討した。
論文 参考訳(メタデータ) (2024-09-24T12:24:07Z) - The Compressor-Retriever Architecture for Language Model OS [20.56093501980724]
オペレーティングシステム(OS)のコアコンポーネントとして言語モデルを用いるという概念について検討する。
このようなLM OSを実現する上で重要な課題は、寿命の長いコンテキストを管理し、セッション間のステートフルネスを確保することだ。
本稿では,生涯のコンテキスト管理のために設計されたモデル非依存アーキテクチャであるコンプレッサー・レトリバーを紹介する。
論文 参考訳(メタデータ) (2024-09-02T23:28:15Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Details Make a Difference: Object State-Sensitive Neurorobotic Task Planning [15.03025428687218]
オブジェクトの状態は現在の状態や状態を反映しており、ロボットのタスク計画と操作にとって重要である。
近年,LLM (Large Language Models) とVLM (Vision-Language Models) は,計画生成において顕著な能力を示している。
我々は、事前学習ニューラルネットワークによって強化されたタスク計画エージェントであるObject State-Sensitive Agent (OSSA)を紹介する。
論文 参考訳(メタデータ) (2024-06-14T12:52:42Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。
PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。
私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z) - MOCA: A Modular Object-Centric Approach for Interactive Instruction
Following [19.57344182656879]
本稿では,タスクを視覚認識と行動ポリシーに分離するモジュールアーキテクチャを提案する。
提案手法をALFREDベンチマークで評価し,先行技術より優れていることを実証的に検証した。
論文 参考訳(メタデータ) (2020-12-06T07:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。