論文の概要: LLM-Guided Agentic Floor Plan Parsing for Accessible Indoor Navigation of Blind and Low-Vision People
- arxiv url: http://arxiv.org/abs/2604.23970v1
- Date: Mon, 27 Apr 2026 02:32:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.702483
- Title: LLM-Guided Agentic Floor Plan Parsing for Accessible Indoor Navigation of Blind and Low-Vision People
- Title(参考訳): 盲人・低視認性室内ナビゲーションのためのLCM誘導型エージェントフロアプラン解析
- Authors: Aydin Ayanzadeh, Tim Oates,
- Abstract要約: 本稿では,単一のフロアプランイメージを構造化して検索可能な知識ベースに変換し,ナビゲーション命令を生成するエージェントフレームワークを提案する。
実世界のUMBC Math and Psychology Building (floors MP-1, MP-3) とCVC-FPベンチマークで評価を行った。
- 参考スコア(独自算出の注目度): 4.3114959617830015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Indoor navigation remains a critical accessibility challenge for the blind and low-vision (BLV) individuals, as existing solutions rely on costly per-building infrastructure. We present an agentic framework that converts a single floor plan image into a structured, retrievable knowledge base to generate safe, accessible navigation instructions with lightweight infrastructure. The system has two phases: a multi-agent module that parses the floor plan into a spatial knowledge graph through a self-correcting pipeline with iterative retry loops and corrective feedback; and a Path Planner that generates accessible navigation instructions, with a Safety Evaluator agent assessing potential hazards along each route. We evaluate the system on the real-world UMBC Math and Psychology building (floors MP-1 and MP-3) and on the CVC-FP benchmark. On MP-1, we achieve success rates of 92.31%, 76.92%, and 61.54% for short, medium, and long routes, outperforming the strongest single-call baseline (Claude 3.7 Sonnet) at 84.62%, 69.23%, and 53.85%. On MP-3, we reach 76.92%, 61.54%, and 38.46%, compared to the best baseline at 61.54%, 46.15%, and 23.08%. These results show consistent gains over single-call LLM baselines and demonstrate that our workflow is a scalable solution for accessible indoor navigation for BLV individuals.
- Abstract(参考訳): 既存のソリューションは建築当たりのコストに頼っているため、室内ナビゲーションは盲目と低視野(BLV)の個人にとって重要なアクセシビリティの課題である。
本稿では,単一フロアプランイメージを構造化して検索可能な知識ベースに変換し,軽量なインフラで安全にアクセス可能なナビゲーション命令を生成するエージェントフレームワークを提案する。
このシステムには2つのフェーズがあり、フロアプランを反復的な再試行ループと修正フィードバックを備えた自己修正パイプラインを通じて空間知識グラフに解析するマルチエージェントモジュールと、アクセス可能なナビゲーション命令を生成するパスプランナーと、各ルートに沿った潜在的な危険を評価する安全評価エージェントがある。
実世界のUMBC Math and Psychology Building (floors MP-1, MP-3) とCVC-FPベンチマークで評価を行った。
MP-1では、92.31%、76.92%、および61.54%の短距離、中距離、長いルートが成功し、84.62%、69.23%、53.85%で最強の単発ベースライン(Claude 3.7 Sonnet)を上回った。
MP-3では76.92%、61.54%、38.46%に達し、最高ベースラインは61.54%、46.15%、そして23.08%となっている。
これらの結果は,単一呼び出しLDMベースラインよりも一貫した利得を示し,我々のワークフローがBLV個人に対してアクセス可能な屋内ナビゲーションのためのスケーラブルなソリューションであることを示す。
関連論文リスト
- Property-Level Flood Risk Assessment Using AI-Enabled Street-View Lowest Floor Elevation Extraction and ML Imputation Across Texas [2.293415070674896]
本稿では,道路ビュー画像のAIによる解析が,洪水リスク評価のための地域規模で建物固有の標高データを生成するための有効な経路となることを論じる。
テキサス州の18の関心領域(AOIs)にまたがる3段階パイプラインを開発し,Elev-Visionフレームワークを用いたGoogleストリートビュー画像からLFEと最下階(HDSL)の高さ差を抽出する。
12,241棟の住宅、73.4%のパーセル、49.0%(5,992棟)で直接LFE/HDSL抽出に成功した。
論文 参考訳(メタデータ) (2026-04-01T17:08:43Z) - LLM-Powered Flood Depth Estimation from Social Media Imagery: A Vision-Language Model Framework with Mechanistic Interpretability for Transportation Resilience [0.0]
FloodLlamaは、単一ストリートレベルの画像から連続的な洪水深度を推定するための微調整された視覚言語モデルである。
TikTokベースのデータパイプラインは、デトロイトの676の注釈付き洪水フレームで検証されており、リアルタイムのクラウドソースによる洪水検知の可能性を示している。
論文 参考訳(メタデータ) (2026-03-17T19:59:25Z) - Floorplan2Guide: LLM-Guided Floorplan Parsing for BLV Indoor Navigation [4.3114959617830015]
そこで本研究では,フロアプランをナビゲーション可能な知識グラフに変換し,人間の読みやすいナビゲーション命令を生成する新しいナビゲーション手法を提案する。
Floorplan2Guideは、大規模言語モデル(LLM)を統合し、アーキテクチャレイアウトから空間情報を抽出する。
シミュレーションおよび実世界評価におけるゼロショット学習と比較して,少数ショット学習ではナビゲーション精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-12-13T04:49:26Z) - UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning [51.54456545661045]
本稿では,インストラクション・アズ・ア・推論(Instruction-as-Reasoning)パラダイムを導入し,インストラクションを動的解析経路として扱う。
これを実現するために,教師付き微調整と強化学習という2段階のトレーニングフレームワークを提案する。
得られたモデルであるUI-Ins-7BとUI-Ins-32Bは、5つの挑戦的なグラウンドベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-10-23T07:18:32Z) - Vision-Based Localization and LLM-based Navigation for Indoor Environments [4.58063394223487]
本研究では,大規模言語モデル(LLM)に基づくナビゲーションと視覚的ローカライゼーションを統合した屋内ローカライゼーションとナビゲーション手法を提案する。
このモデルは、制限された視聴条件下であっても、テストされた全てのウェイポイントに対して高い信頼性と96%の精度を実現した。
本研究は、オフザシェルフカメラと一般公開フロアプランを用いた、スケーラブルでインフラストラクチャフリーな屋内ナビゲーションの可能性を示す。
論文 参考訳(メタデータ) (2025-08-11T15:59:09Z) - Bayesian-Driven Graph Reasoning for Active Radio Map Construction [96.08082552413117]
本稿では,経路ナビゲーションに適したグラフベースの推論を明示的に活用する不確実性を考慮した無線地図再構成フレームワークを提案する。
提案手法は,(1)空間的不確実性をリアルタイムで推定するベイズニューラルネットワーク,(2)グローバル推論を行う注意に基づく強化学習ポリシの2つの重要な深層学習要素を統合した。
実験の結果,URAMは既存のベースラインよりも最大で34%の精度で復元できることがわかった。
論文 参考訳(メタデータ) (2025-07-29T03:32:01Z) - DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [55.888688171010365]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T04:46:13Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - Tactile Grasp Refinement using Deep Reinforcement Learning and Analytic
Grasp Stability Metrics [70.65363356763598]
解析的把握安定性指標が強化学習アルゴリズムの強力な最適化目標であることを示す。
幾何的および力量に依存しないグリップ安定性の指標を組み合わせることで、カブイドの平均成功率は95.4%となることを示す。
第2の実験では,触覚情報を持たないベースラインよりも,接触フィードバックで訓練したグリップリファインメントアルゴリズムが最大6.6%向上することを示した。
論文 参考訳(メタデータ) (2021-09-23T09:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。