論文の概要: Floorplan2Guide: LLM-Guided Floorplan Parsing for BLV Indoor Navigation
- arxiv url: http://arxiv.org/abs/2512.12177v1
- Date: Sat, 13 Dec 2025 04:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.148065
- Title: Floorplan2Guide: LLM-Guided Floorplan Parsing for BLV Indoor Navigation
- Title(参考訳): Floorplan2Guide:BLV屋内ナビゲーション用LCMガイドフロアプラン解析
- Authors: Aydin Ayanzadeh, Tim Oates,
- Abstract要約: そこで本研究では,フロアプランをナビゲーション可能な知識グラフに変換し,人間の読みやすいナビゲーション命令を生成する新しいナビゲーション手法を提案する。
Floorplan2Guideは、大規模言語モデル(LLM)を統合し、アーキテクチャレイアウトから空間情報を抽出する。
シミュレーションおよび実世界評価におけるゼロショット学習と比較して,少数ショット学習ではナビゲーション精度が向上することが示唆された。
- 参考スコア(独自算出の注目度): 4.3114959617830015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Indoor navigation remains a critical challenge for people with visual impairments. The current solutions mainly rely on infrastructure-based systems, which limit their ability to navigate safely in dynamic environments. We propose a novel navigation approach that utilizes a foundation model to transform floor plans into navigable knowledge graphs and generate human-readable navigation instructions. Floorplan2Guide integrates a large language model (LLM) to extract spatial information from architectural layouts, reducing the manual preprocessing required by earlier floorplan parsing methods. Experimental results indicate that few-shot learning improves navigation accuracy in comparison to zero-shot learning on simulated and real-world evaluations. Claude 3.7 Sonnet achieves the highest accuracy among the evaluated models, with 92.31%, 76.92%, and 61.54% on the short, medium, and long routes, respectively, under 5-shot prompting of the MP-1 floor plan. The success rate of graph-based spatial structure is 15.4% higher than that of direct visual reasoning among all models, which confirms that graphical representation and in-context learning enhance navigation performance and make our solution more precise for indoor navigation of Blind and Low Vision (BLV) users.
- Abstract(参考訳): 視覚障害者にとって、室内ナビゲーションは依然として重要な課題だ。
現在のソリューションは主にインフラストラクチャベースのシステムに依存しており、動的環境で安全にナビゲートする能力を制限する。
本研究では,基礎モデルを用いて,フロアプランをナビゲーション可能な知識グラフに変換し,人間可読なナビゲーション命令を生成する新しいナビゲーション手法を提案する。
Floorplan2Guideは、大規模言語モデル(LLM)を統合して、アーキテクチャレイアウトから空間情報を抽出し、初期のフロアプラン解析法で必要とされる手作業による事前処理を減らす。
実験結果から, 実世界とシミュレーションによるゼロショット学習と比較して, ナビゲーション精度が向上することが示唆された。
クロード 3.7 ソーネットは評価されたモデルの最高精度を92.31%、76.92%、短いルートでは61.54%と達成し、それぞれMP-1フロアプランの5ショットプロンプトで達成している。
グラフベースの空間構造の成功率は、すべてのモデルにおいて直接視覚的推論よりも15.4%高く、グラフィカル表現とコンテキスト内学習がナビゲーション性能を高め、Blind and Low Vision (BLV) ユーザの屋内ナビゲーションをより正確にする。
関連論文リスト
- Boosting Zero-Shot VLN via Abstract Obstacle Map-Based Waypoint Prediction with TopoGraph-and-VisitInfo-Aware Prompting [18.325003967982827]
視覚言語ナビゲーション (VLN) は、広範囲に応用されたエージェントの具体化のための重要なタスクとして登場した。
マルチモーダル大言語モデル(MLLM)と簡易かつ効果的なウェイポイント予測器を統合したゼロショットフレームワークを提案する。
R2R-CE と RxR-CE の実験結果から,本手法は最先端のゼロショット性能を実現し,成功率は 41% と 36% であった。
論文 参考訳(メタデータ) (2025-09-24T19:21:39Z) - Fine-Tuning Vision-Language Models for Visual Navigation Assistance [28.43430422119113]
視覚障害者の視覚障害者の目標地点への到達を支援するために,視覚言語駆動型屋内ナビゲーションについて,画像と自然言語指導を用いて検討した。
提案手法は視覚と言語モデルを統合して,段階的なナビゲーション命令を生成し,アクセシビリティと独立性を向上する。
論文 参考訳(メタデータ) (2025-09-09T08:08:35Z) - Vision-Based Localization and LLM-based Navigation for Indoor Environments [4.58063394223487]
本研究では,大規模言語モデル(LLM)に基づくナビゲーションと視覚的ローカライゼーションを統合した屋内ローカライゼーションとナビゲーション手法を提案する。
このモデルは、制限された視聴条件下であっても、テストされた全てのウェイポイントに対して高い信頼性と96%の精度を実現した。
本研究は、オフザシェルフカメラと一般公開フロアプランを用いた、スケーラブルでインフラストラクチャフリーな屋内ナビゲーションの可能性を示す。
論文 参考訳(メタデータ) (2025-08-11T15:59:09Z) - DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [55.888688171010365]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T04:46:13Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language
Model [28.79971953667143]
VoroNavは、リアルタイムで構築されたセマンティックマップから探索経路と計画ノードを抽出する意味探索フレームワークである。
トポロジカルおよびセマンティック情報を活用することで、VoroNavは大きな言語モデルで容易に解釈できるパスとイメージのテキストベースの記述を設計する。
論文 参考訳(メタデータ) (2024-01-05T08:05:07Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Waypoint Models for Instruction-guided Navigation in Continuous
Environments [68.2912740006109]
本稿では,言語条件付きウェイポイント予測ネットワークのクラスを開発し,この問題について検討する。
プロファイリングされたLoCoBotロボット上でのタスク性能と実行時間の推定を行う。
我々のモデルは、VLN-CEにおける以前の仕事を上回り、新しい最先端の技術を公衆のリーダーボードに置きました。
論文 参考訳(メタデータ) (2021-10-05T17:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。