Fugu-MT 論文翻訳(概要): Vision Language Models Can Parse Floor Plan Maps

論文の概要: Vision Language Models Can Parse Floor Plan Maps

arxiv url: http://arxiv.org/abs/2409.12842v1
Date: Thu, 19 Sep 2024 15:36:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 13:10:09.692159
Title: Vision Language Models Can Parse Floor Plan Maps
Title（参考訳）: ビジョン言語モデルは、Parseのフロアプランマップを作成できる
Authors: David DeFazio, Hrudayangam Mehta, Jeremy Blackburn, Shiqi Zhang,
Abstract要約: 視覚言語モデル(VLM)は、多くのタスクに取り組むために画像とテキストを同時に推論することができる。本稿では,VLMコンテキスト内で探索されていない新しいタスクであるmap parsingに焦点を当てる。
参考スコア（独自算出の注目度）: 5.902912356816188
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision language models (VLMs) can simultaneously reason about images and texts to tackle many tasks, from visual question answering to image captioning. This paper focuses on map parsing, a novel task that is unexplored within the VLM context and particularly useful to mobile robots. Map parsing requires understanding not only the labels but also the geometric configurations of a map, i.e., what areas are like and how they are connected. To evaluate the performance of VLMs on map parsing, we prompt VLMs with floorplan maps to generate task plans for complex indoor navigation. Our results demonstrate the remarkable capability of VLMs in map parsing, with a success rate of 0.96 in tasks requiring a sequence of nine navigation actions, e.g., approaching and going through doors. Other than intuitive observations, e.g., VLMs do better in smaller maps and simpler navigation tasks, there was a very interesting observation that its performance drops in large open areas. We provide practical suggestions to address such challenges as validated by our experimental results. Webpage: https://shorturl.at/OUkEY
Abstract（参考訳）: 視覚言語モデル(VLM)は、視覚的な質問応答から画像キャプションまで、多くのタスクに取り組むために、画像とテキストを同時に推論することができる。本稿では、VLMコンテキスト内で探索されていない新しいタスクであるマップ解析に焦点を当て、特に移動ロボットに有用である。地図解析は、ラベルだけでなく、地図の幾何学的構成、すなわち、どの領域がどのようなもので、どのように接続されているかを理解する必要がある。地図解析におけるVLMの性能を評価するため,複雑な屋内ナビゲーションのためのタスクプランを生成するために,フロアプランマップを用いたVLMを誘導する。以上の結果から,地図解析におけるVLMの顕著な機能を示すとともに,9つのナビゲーション動作,例えばドアへの接近や通過といったタスクにおいて0.96の成功率を示した。直感的な観察、例えば、VLMはより小さな地図やより単純なナビゲーションタスクで優れているが、大きなオープンエリアでパフォーマンスが低下するという非常に興味深い観測があった。実験結果によって検証された課題に対処するための実践的な提案を行う。 Webページ: https://shorturl.at/OUkEY

関連論文リスト

MapIQ: Benchmarking Multimodal Large Language Models for Map Question Answering [12.730686631411055]
本稿では,3種類のマップに対して14,706の質問応答ペアからなるベンチマークデータセットであるMapIQを紹介する。本研究では、6つの視覚的分析タスクを用いて複数のMLLMを評価し、それらの性能と人間のベースラインを比較した。地図設計の変更の影響を調べる実験は、MLLMの堅牢性と感度に関する洞察を与える。
論文参考訳（メタデータ） (2025-07-15T18:02:57Z)
Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。 VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文参考訳（メタデータ） (2025-06-09T17:59:54Z)
Tag Map: A Text-Based Map for Spatial Reasoning and Navigation with Large Language Models [15.454856838083511]
大言語モデル(LLM)は、ロボットが共通感覚推論を用いてタスクプランを生成するためのツールとして登場した。最近の研究は、固定された意味クラスを持つ明示的な写像から暗黙的なオープンな語彙マップへと移行している。 LLMと簡単に統合しながら、数千のセマンティッククラスを表現できる明示的なテキストベースのマップを提案する。
論文参考訳（メタデータ） (2024-09-23T18:26:19Z)
MAPWise: Evaluating Vision-Language Models for Advanced Map Queries [47.15503716894445]
本研究では,視覚言語モデル(VLM)の有効性について検討した。我々は3つの地理的地域(アメリカ合衆国、インド、中国)の地図からなる新しい地図に基づく質問回答ベンチマークを導入する。このベンチマークには43種類の質問テンプレートが組み込まれており、相対空間関係の微妙な理解、複雑な地図の特徴、複雑な推論が必要である。
論文参考訳（メタデータ） (2024-08-30T20:57:34Z)
VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。 VLMの未調査能力の1つは、視覚空間計画である。本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文参考訳（メタデータ） (2024-07-02T00:24:01Z)
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。 PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文参考訳（メタデータ） (2024-02-12T18:33:47Z)
VELMA: Verbalization Embodiment of LLM Agents for Vision and Language Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。 VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文参考訳（メタデータ） (2023-07-12T11:08:24Z)
Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文参考訳（メタデータ） (2022-10-14T04:23:27Z)
Open-vocabulary Queryable Scene Representations for Real World Planning [56.175724306976505]
大規模言語モデル(LLM)は、ヒューマンインストラクションからタスクプランニングの新しい機能を解放した。しかし、LLMを現実世界のロボットタスクに適用しようとする以前の試みは、周囲のシーンでの接地不足によって制限されている。我々は,この問題を解決するために,オープンな語彙とクエリ可能なシーン表現であるNLMapを開発した。
論文参考訳（メタデータ） (2022-09-20T17:29:56Z)
MultiON: Benchmarking Semantic Map Memory using Multi-Object Navigation [23.877609358505268]
最近の研究は、地図のようなメモリが長距離ナビゲーションタスクに有用であることを示している。本稿では,実環境において,エピソード特有のオブジェクト列へのナビゲーションを必要とするマルチオンタスクを提案する。様々なエージェントモデルがナビゲーションタスクの複雑度をまたいでどのように振る舞うかを検討する。
論文参考訳（メタデータ） (2020-12-07T18:42:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。