論文の概要: Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs
- arxiv url: http://arxiv.org/abs/2407.07775v2
- Date: Fri, 12 Jul 2024 14:37:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 03:48:26.878102
- Title: Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs
- Title(参考訳): Mobility VLA: 長期VLMとトポロジグラフを用いたマルチモーダルインストラクションナビゲーション
- Authors: Hao-Tien Lewis Chiang, Zhuo Xu, Zipeng Fu, Mithun George Jacob, Tingnan Zhang, Tsang-Wei Edward Lee, Wenhao Yu, Connor Schenck, David Rendleman, Dhruv Shah, Fei Xia, Jasmine Hsu, Jonathan Hoech, Pete Florence, Sean Kirmani, Sumeet Singh, Vikas Sindhwani, Carolina Parada, Chelsea Finn, Peng Xu, Sergey Levine, Jie Tan,
- Abstract要約: モビリティVLAは、環境理解と長文VLMの常識推論能力を組み合わせた、階層的なビジョン・ランゲージ・アクション(VLA)ナビゲーションポリシーである。
従来未解決であったマルチモーダル命令に対して,モビリティVLAはエンドツーエンドの成功率が高いことを示す。
- 参考スコア(独自算出の注目度): 95.8010627763483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An elusive goal in navigation research is to build an intelligent agent that can understand multimodal instructions including natural language and image, and perform useful navigation. To achieve this, we study a widely useful category of navigation tasks we call Multimodal Instruction Navigation with demonstration Tours (MINT), in which the environment prior is provided through a previously recorded demonstration video. Recent advances in Vision Language Models (VLMs) have shown a promising path in achieving this goal as it demonstrates capabilities in perceiving and reasoning about multimodal inputs. However, VLMs are typically trained to predict textual output and it is an open research question about how to best utilize them in navigation. To solve MINT, we present Mobility VLA, a hierarchical Vision-Language-Action (VLA) navigation policy that combines the environment understanding and common sense reasoning power of long-context VLMs and a robust low-level navigation policy based on topological graphs. The high-level policy consists of a long-context VLM that takes the demonstration tour video and the multimodal user instruction as input to find the goal frame in the tour video. Next, a low-level policy uses the goal frame and an offline constructed topological graph to generate robot actions at every timestep. We evaluated Mobility VLA in a 836m^2 real world environment and show that Mobility VLA has a high end-to-end success rates on previously unsolved multimodal instructions such as "Where should I return this?" while holding a plastic bin. A video demonstrating Mobility VLA can be found here: https://youtu.be/-Tof__Q8_5s
- Abstract(参考訳): ナビゲーション研究の究極的な目標は、自然言語や画像を含むマルチモーダル命令を理解し、有用なナビゲーションを実行するインテリジェントエージェントを構築することである。
そこで本研究では,MINT (Multimodal Instruction Navigation with Demo Tours) と呼ばれる,従来記録されていたデモビデオを通じて,事前の環境を提供するナビゲーションタスクのカテゴリについて検討する。
視覚言語モデル(VLM)の最近の進歩は、マルチモーダル入力の知覚と推論能力を示すものとして、この目標を達成する上で有望な道筋を示している。
しかしながら、VLMは典型的にはテキスト出力を予測するために訓練されており、ナビゲーションに最適な方法に関するオープンな研究課題である。
MINT を解決するために,環境理解と長文 VLM の共通感覚推論能力とトポロジグラフに基づくロバストな低レベルナビゲーションポリシを組み合わせた階層型視覚言語行動(VLA)ナビゲーションポリシーであるモビリティ VLA を提案する。
高レベルポリシーは、デモツアービデオとマルチモーダルユーザーインストラクションを入力として、ツアービデオのゴールフレームを見つけるための長文VLMで構成されている。
次に、低レベルのポリシーでは、ゴールフレームとオフラインで構築されたトポロジグラフを使用して、各ステップでロボットアクションを生成する。
我々は,836m^2実環境におけるモビリティVLAの評価を行い,プラスチック製の容器を持ちながら,それまで未解決であったマルチモーダル命令に対して,モビリティVLAは高いエンドツーエンドの成功率を示す。
Mobility VLAのデモビデオはこちらで見ることができる。
関連論文リスト
- Navigation with VLM framework: Go to Any Language [2.9869976373921916]
視覚的大言語モデル(VLM)は、言語と視覚データの両方を推論する際、顕著な能力を示した。
このフレームワークは、機器レベルのVLMを利用して、エージェントがオープンシーンで特定の言語目標や非特定の言語目標に向かって移動できるようにする。
本研究では,Habitat シミュレータ内の Matterport 3D (MP3D) , Habitat Matterport 3D (HM3D) および Gibson データセットから,詳細な環境下での NavVLM の評価を行った。
論文 参考訳(メタデータ) (2024-09-18T02:29:00Z) - NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation [23.72290930234063]
NaVidは、ヴィジュアル・アンド・ランゲージナビゲーションのためのビデオベースの大型視覚言語モデル(VLM)である。
NaVidはシミュレーション環境と現実世界で最先端のパフォーマンスを実現し、優れたクロスデータセットとSim2Real転送を実現している。
論文 参考訳(メタデータ) (2024-02-24T16:39:16Z) - PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。
PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。
私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。