Fugu-MT 論文翻訳(概要): ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting

論文の概要: ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting

arxiv url: http://arxiv.org/abs/2410.17856v2
Date: Thu, 14 Nov 2024 12:29:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.459879
Title: ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting
Title（参考訳）: ROCKET-1:ビジュアル・テンポラル・コンテキスト・プロンプティングによるオープンワールドインタラクションのマスタリング
Authors: Shaofei Cai, Zihao Wang, Kewei Lian, Zhancun Mu, Xiaojian Ma, Anji Liu, Yitao Liang,
Abstract要約: 視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。 1つの重要な問題は、低レベルの観測における個別の実体と効果的な計画に必要な抽象概念のギャップを埋めることである。 VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストを提案する。
参考スコア（独自算出の注目度）: 24.56720920528011
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Vision-language models (VLMs) have excelled in multimodal tasks, but adapting them to embodied decision-making in open-world environments presents challenges. One critical issue is bridging the gap between discrete entities in low-level observations and the abstract concepts required for effective planning. A common solution is building hierarchical agents, where VLMs serve as high-level reasoners that break down tasks into executable sub-tasks, typically specified using language. However, language suffers from the inability to communicate detailed spatial information. We propose visual-temporal context prompting, a novel communication protocol between VLMs and policy models. This protocol leverages object segmentation from past observations to guide policy-environment interactions. Using this approach, we train ROCKET-1, a low-level policy that predicts actions based on concatenated visual observations and segmentation masks, supported by real-time object tracking from SAM-2. Our method unlocks the potential of VLMs, enabling them to tackle complex tasks that demand spatial reasoning. Experiments in Minecraft show that our approach enables agents to achieve previously unattainable tasks, with a $\mathbf{76}\%$ absolute improvement in open-world interaction performance. Codes and demos are now available on the project page: https://craftjarvis.github.io/ROCKET-1.
Abstract（参考訳）: 視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。 1つの重要な問題は、低レベルの観測における個別の実体と効果的な計画に必要な抽象概念のギャップを埋めることである。一般的な解決策は階層型エージェントの構築であり、VLMはタスクを実行可能なサブタスクに分割する高レベルな推論器として機能する。しかし、言語は詳細な空間情報を伝えることができない。 VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストプロンプトを提案する。このプロトコルは、過去の観測からオブジェクトのセグメンテーションを利用して、ポリシーと環境の相互作用を導く。このアプローチを用いて,SAM-2からのリアルタイム物体追跡によって支援された,統合された視覚観測とセグメンテーションマスクに基づく行動予測を行う低レベルポリシーであるROCKET-1を訓練する。我々の手法はVLMの可能性を解き、空間的推論を必要とする複雑なタスクに対処することができる。 Minecraftの実験によると、我々の手法は、オープンワールドのインタラクションパフォーマンスを絶対的に改善する$\mathbf{76}\%$$で、これまで達成できなかったタスクをエージェントが達成できることを示しています。コードとデモはプロジェクトページで公開されている。

関連論文リスト

COLA: Context-aware Language-driven Test-time Adaptation [20.919416740369975]
共有ラベルを必要とせずに、複数のターゲットドメインに適応可能な、より汎用的なソースモデルについて検討する。これは、事前にトレーニングされた視覚言語モデル(VLM)、egno、CLIPを使用して、クラス記述にマッチして画像を認識することで実現される。文脈認識型言語駆動型TTA(COLA)を提案する。
論文参考訳（メタデータ） (2025-09-22T11:19:17Z)
Spatio-Temporal LLM: Reasoning about Environments and Actions [6.224087801093545]
MLLMは、全体論的時間的理解を必要とするプロンプトに正しく答えるのに依然として苦労していることを示す。環境の空間的理解と最近の観測の時間的理解を両立させるプロジェクタを備えたモデル「s-temporal LLM」(LLM)を開発した。
論文参考訳（メタデータ） (2025-07-07T17:59:55Z)
GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing [33.19843463374473]
リモートセンシングにおける視覚言語モデル(VLM)は、従来のタスクにおいて大きな可能性を示している。 Referring Expression (REC) に長けている現在のモデルは、複雑な命令を含むタスクに苦労している。本稿では、オープン語彙タスク(OVT)、表現タスク(RET)、記述対象タスク(DOT)を含むリモートセンシングビジョンランゲージタスクセット(RSVLTS)を紹介する。本稿では, RSVLTS のセット・オブ・ポイント・アプローチと, 循環参照に基づく条件と自己拡張戦略を用いた新しい統一データ表現を提案する。
論文参考訳（メタデータ） (2025-03-16T12:48:17Z)
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 MLLM(Multimodal Large Language Models)の試験場として機能する。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)
Bridging Environments and Language with Rendering Functions and Vision-Language Models [7.704773649029078]
視覚言語モデル(VLM)は、基底言語に非常に大きな可能性を秘めている。本稿では,言語条件付きエージェント(LCA)構築問題の新しい分解法を提案する。また,VLMを用いたLCAの高速化と品質向上についても検討した。
論文参考訳（メタデータ） (2024-09-24T12:24:07Z)
The Compressor-Retriever Architecture for Language Model OS [20.56093501980724]
オペレーティングシステム(OS)のコアコンポーネントとして言語モデルを用いるという概念について検討する。このようなLM OSを実現する上で重要な課題は、寿命の長いコンテキストを管理し、セッション間のステートフルネスを確保することだ。本稿では,生涯のコンテキスト管理のために設計されたモデル非依存アーキテクチャであるコンプレッサー・レトリバーを紹介する。
論文参考訳（メタデータ） (2024-09-02T23:28:15Z)
VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。 VLMの未調査能力の1つは、視覚空間計画である。本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文参考訳（メタデータ） (2024-07-02T00:24:01Z)
Details Make a Difference: Object State-Sensitive Neurorobotic Task Planning [15.03025428687218]
オブジェクトの状態は現在の状態や状態を反映しており、ロボットのタスク計画と操作にとって重要である。近年,LLM (Large Language Models) とVLM (Vision-Language Models) は,計画生成において顕著な能力を示している。我々は、事前学習ニューラルネットワークによって強化されたタスク計画エージェントであるObject State-Sensitive Agent (OSSA)を紹介する。
論文参考訳（メタデータ） (2024-06-14T12:52:42Z)
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文参考訳（メタデータ） (2024-06-12T16:44:50Z)
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。 PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文参考訳（メタデータ） (2024-02-12T18:33:47Z)
BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。 1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文参考訳（メタデータ） (2023-07-17T15:51:47Z)
Semantic Tracklets: An Object-Centric Representation for Visual Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文参考訳（メタデータ） (2021-08-06T22:19:09Z)
MOCA: A Modular Object-Centric Approach for Interactive Instruction Following [19.57344182656879]
本稿では,タスクを視覚認識と行動ポリシーに分離するモジュールアーキテクチャを提案する。提案手法をALFREDベンチマークで評価し,先行技術より優れていることを実証的に検証した。
論文参考訳（メタデータ） (2020-12-06T07:59:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。