論文の概要: Tag Map: A Text-Based Map for Spatial Reasoning and Navigation with Large Language Models
- arxiv url: http://arxiv.org/abs/2409.15451v1
- Date: Mon, 23 Sep 2024 18:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 13:10:19.040207
- Title: Tag Map: A Text-Based Map for Spatial Reasoning and Navigation with Large Language Models
- Title(参考訳): タグマップ:大規模言語モデルを用いた空間推論とナビゲーションのためのテキストベースマップ
- Authors: Mike Zhang, Kaixian Qu, Vaishakh Patil, Cesar Cadena, Marco Hutter,
- Abstract要約: 大言語モデル(LLM)は、ロボットが共通感覚推論を用いてタスクプランを生成するためのツールとして登場した。
最近の研究は、固定された意味クラスを持つ明示的な写像から暗黙的なオープンな語彙マップへと移行している。
LLMと簡単に統合しながら、数千のセマンティッククラスを表現できる明示的なテキストベースのマップを提案する。
- 参考スコア(独自算出の注目度): 15.454856838083511
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLM) have emerged as a tool for robots to generate task plans using common sense reasoning. For the LLM to generate actionable plans, scene context must be provided, often through a map. Recent works have shifted from explicit maps with fixed semantic classes to implicit open vocabulary maps based on queryable embeddings capable of representing any semantic class. However, embeddings cannot directly report the scene context as they are implicit, requiring further processing for LLM integration. To address this, we propose an explicit text-based map that can represent thousands of semantic classes while easily integrating with LLMs due to their text-based nature by building upon large-scale image recognition models. We study how entities in our map can be localized and show through evaluations that our text-based map localizations perform comparably to those from open vocabulary maps while using two to four orders of magnitude less memory. Real-robot experiments demonstrate the grounding of an LLM with the text-based map to solve user tasks.
- Abstract(参考訳): 大言語モデル(LLM)は、ロボットが常識推論を用いてタスクプランを生成するためのツールとして登場した。
LLMが実行可能なプランを生成するためには、しばしばマップを通じてシーンコンテキストを提供する必要がある。
最近の研究は、セマンティッククラスを固定した明示的なマップから、セマンティッククラスを表現できるクエリ可能な埋め込みに基づく暗黙のオープンな語彙マップへと移行している。
しかし、埋め込みは暗黙的にシーンコンテキストを直接報告することができず、LLM統合のためにさらなる処理が必要である。
そこで本研究では,大規模な画像認識モデルを構築することで,LLMと簡単に統合しながら,数千のセマンティッククラスを表現できる明示的なテキストベースマップを提案する。
本研究では,我々の地図内の実体の局所化について検討し,テキストベースの地図の局所化が2~4桁のメモリを消費しながら,オープン語彙マップのものと同等に機能することを示す。
実ロボット実験は、ユーザタスクを解決するためのテキストベースのマップによるLLMの接地を実証する。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Vision Language Models Can Parse Floor Plan Maps [5.902912356816188]
視覚言語モデル(VLM)は、多くのタスクに取り組むために画像とテキストを同時に推論することができる。
本稿では,VLMコンテキスト内で探索されていない新しいタスクであるmap parsingに焦点を当てる。
論文 参考訳(メタデータ) (2024-09-19T15:36:28Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Sat2Cap: Mapping Fine-Grained Textual Descriptions from Satellite Images [12.356676398446215]
自由形式のテキスト記述を用いた地図作成のための弱教師付きアプローチを提案する。
私たちはSat2Capと呼ばれる対照的な学習フレームワークを6.10万対のオーバーヘッドと地上レベルのイメージを持つ新しい大規模データセットでトレーニングします。
論文 参考訳(メタデータ) (2023-07-29T06:23:51Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - Visual Language Maps for Robot Navigation [30.33041779258644]
ナビゲーションエージェントの視覚的観察に対する接地言語は、インターネットスケールのデータに基づいて事前訓練された市販の視覚言語モデルを用いて行うことができる。
実世界の3次元再構成により,事前学習した視覚言語特徴を直接融合する空間地図表現 VLMaps を提案する。
論文 参考訳(メタデータ) (2022-10-11T18:13:20Z) - Open-vocabulary Queryable Scene Representations for Real World Planning [56.175724306976505]
大規模言語モデル(LLM)は、ヒューマンインストラクションからタスクプランニングの新しい機能を解放した。
しかし、LLMを現実世界のロボットタスクに適用しようとする以前の試みは、周囲のシーンでの接地不足によって制限されている。
我々は,この問題を解決するために,オープンな語彙とクエリ可能なシーン表現であるNLMapを開発した。
論文 参考訳(メタデータ) (2022-09-20T17:29:56Z) - Synthetic Map Generation to Provide Unlimited Training Data for
Historical Map Text Detection [5.872532529455414]
そこで本研究では,テキスト検出モデルのトレーニングのために,注釈付き歴史地図画像の無限量の自動生成手法を提案する。
我々は,現在最先端のテキスト検出モデルが,合成歴史地図の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2021-12-12T00:27:03Z) - Rethinking Localization Map: Towards Accurate Object Perception with
Self-Enhancement Maps [78.2581910688094]
本研究は, カテゴリーラベルのみを監督として, 正確な対象位置分布マップと対象境界を抽出する, 新たな自己強調手法を提案する。
特に、提案されたセルフエンハンスメントマップは、ILSVRC上で54.88%の最先端のローカライゼーション精度を達成する。
論文 参考訳(メタデータ) (2020-06-09T12:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。