論文の概要: End-to-End Navigation with Vision Language Models: Transforming Spatial Reasoning into Question-Answering
- arxiv url: http://arxiv.org/abs/2411.05755v1
- Date: Fri, 08 Nov 2024 18:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:55:28.606478
- Title: End-to-End Navigation with Vision Language Models: Transforming Spatial Reasoning into Question-Answering
- Title(参考訳): 視覚言語モデルを用いたエンドツーエンドナビゲーション:空間推論を質問応答に変換する
- Authors: Dylan Goetting, Himanshu Gaurav Singh, Antonio Loquercio,
- Abstract要約: VLMnavはVision-Language Modelをエンドツーエンドのナビゲーションポリシーに変換するための具体化フレームワークである。
我々は,ベースラインプロンプト法と比較して,アプローチの性能を評価するための広範な研究を行っている。
- 参考スコア(独自算出の注目度): 5.8871894658936395
- License:
- Abstract: We present VLMnav, an embodied framework to transform a Vision-Language Model (VLM) into an end-to-end navigation policy. In contrast to prior work, we do not rely on a separation between perception, planning, and control; instead, we use a VLM to directly select actions in one step. Surprisingly, we find that a VLM can be used as an end-to-end policy zero-shot, i.e., without any fine-tuning or exposure to navigation data. This makes our approach open-ended and generalizable to any downstream navigation task. We run an extensive study to evaluate the performance of our approach in comparison to baseline prompting methods. In addition, we perform a design analysis to understand the most impactful design decisions. Visual examples and code for our project can be found at https://jirl-upenn.github.io/VLMnav/
- Abstract(参考訳): 本稿では、視覚言語モデル(VLM)をエンドツーエンドナビゲーションポリシーに変換するための具体化フレームワークであるVLMnavを紹介する。
従来の作業とは対照的に、私たちは知覚、計画、制御の分離に頼るのではなく、VLMを使って1ステップでアクションを直接選択します。
驚いたことに、VLMはエンドツーエンドのポリシーゼロショット、すなわち、微調整やナビゲーションデータへの露出なしに使用できる。
これにより、ダウンストリームナビゲーションタスクに対して、我々のアプローチをオープンにし、一般化できます。
我々は,ベースラインプロンプト法と比較して,アプローチの性能を評価するための広範な研究を行っている。
さらに、最も影響力のある設計決定を理解するために、設計分析を実行します。
私たちのプロジェクトのビジュアル例とコードは、https://jirl-upenn.github.io/VLMnav/にある。
関連論文リスト
- DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs [95.8010627763483]
モビリティVLAは、環境理解と長文VLMの常識推論能力を組み合わせた、階層的なビジョン・ランゲージ・アクション(VLA)ナビゲーションポリシーである。
従来未解決であったマルチモーダル命令に対して,モビリティVLAはエンドツーエンドの成功率が高いことを示す。
論文 参考訳(メタデータ) (2024-07-10T15:49:07Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - Cross-modal Map Learning for Vision and Language Navigation [82.04247028482244]
VLN(Vision-and-Language Navigation)の問題点について考察する。
他の研究とは対照的に、我々の重要な洞察は、言語と視覚の関連性は、明示的な空間表現で起こるときに強くなるということである。
視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。このモデルでは,まず,観測領域と観測対象領域の両方に対して,エゴセントリックマップ上のトップダウンセマンティクスを予測することを学習する。
論文 参考訳(メタデータ) (2022-03-10T03:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。