論文の概要: Vision-Based Localization and LLM-based Navigation for Indoor Environments
- arxiv url: http://arxiv.org/abs/2508.08120v1
- Date: Mon, 11 Aug 2025 15:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.188372
- Title: Vision-Based Localization and LLM-based Navigation for Indoor Environments
- Title(参考訳): 室内環境における視覚的位置決めとLCMに基づくナビゲーション
- Authors: Keyan Rahimi, Md. Wasiul Haque, Sagar Dasgupta, Mizanur Rahman,
- Abstract要約: 本研究では,大規模言語モデル(LLM)に基づくナビゲーションと視覚的ローカライゼーションを統合した屋内ローカライゼーションとナビゲーション手法を提案する。
このモデルは、制限された視聴条件下であっても、テストされた全てのウェイポイントに対して高い信頼性と96%の精度を実現した。
本研究は、オフザシェルフカメラと一般公開フロアプランを用いた、スケーラブルでインフラストラクチャフリーな屋内ナビゲーションの可能性を示す。
- 参考スコア(独自算出の注目度): 4.58063394223487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Indoor navigation remains a complex challenge due to the absence of reliable GPS signals and the architectural intricacies of large enclosed environments. This study presents an indoor localization and navigation approach that integrates vision-based localization with large language model (LLM)-based navigation. The localization system utilizes a ResNet-50 convolutional neural network fine-tuned through a two-stage process to identify the user's position using smartphone camera input. To complement localization, the navigation module employs an LLM, guided by a carefully crafted system prompt, to interpret preprocessed floor plan images and generate step-by-step directions. Experimental evaluation was conducted in a realistic office corridor with repetitive features and limited visibility to test localization robustness. The model achieved high confidence and an accuracy of 96% across all tested waypoints, even under constrained viewing conditions and short-duration queries. Navigation tests using ChatGPT on real building floor maps yielded an average instruction accuracy of 75%, with observed limitations in zero-shot reasoning and inference time. This research demonstrates the potential for scalable, infrastructure-free indoor navigation using off-the-shelf cameras and publicly available floor plans, particularly in resource-constrained settings like hospitals, airports, and educational institutions.
- Abstract(参考訳): 屋内ナビゲーションは、信頼性の高いGPS信号がないことや、大きな囲まれた環境のアーキテクチャ上の複雑さが欠如しているため、依然として複雑な課題である。
本研究では,大規模言語モデル(LLM)に基づくナビゲーションと視覚的ローカライゼーションを統合した屋内ローカライゼーションとナビゲーション手法を提案する。
ローカライゼーションシステムは、スマートフォンカメラ入力を用いてユーザの位置を特定するために、2段階プロセスを通じて微調整されたResNet-50畳み込みニューラルネットワークを利用する。
ローカライゼーションを補完するため、ナビゲーションモジュールは、慎重に構築されたシステムプロンプトによってガイドされるLCMを使用して、事前処理されたフロアプランイメージを解釈し、ステップバイステップの方向を生成する。
再現性や視認性に限界がある現実的なオフィス廊下において,ロバスト性をテストする実験を行った。
このモデルは、制限された視聴条件や短時間のクエリであっても、テストされたすべてのウェイポイントに対して高い信頼性と96%の精度を実現した。
実際のビルディングフロアマップ上でのChatGPTを用いたナビゲーションテストでは、平均的な指示精度が75%となり、ゼロショット推論と推論時間に制限が認められた。
この研究は、オフザシェルフカメラと一般公開フロアプラン、特に病院、空港、教育機関などの資源に制約のある環境で、スケーラブルでインフラストラクチャフリーな屋内ナビゲーションの可能性を示す。
関連論文リスト
- NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - LLM-Guided Indoor Navigation with Multimodal Map Understanding [1.5325823985727567]
屋内地図画像からコンテキスト対応ナビゲーションインストラクションを生成するための大規模言語モデル(LLM)、すなわちChatGPTの可能性を探る。
以上の結果から,パーソナライズされた屋内ナビゲーションを支援するLLMが,平均86.59%,最大97.14%の正答率を持つ可能性が示唆された。
これらの結果は、AI駆動ナビゲーションと補助技術に重要な意味を持つ。
論文 参考訳(メタデータ) (2025-03-12T09:32:43Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Unsupervised Visual Odometry and Action Integration for PointGoal
Navigation in Indoor Environment [14.363948775085534]
屋内環境におけるポイントゴールナビゲーションは、個人ロボットが特定の地点に向かうための基本的なタスクである。
GPS信号を使わずにPointGoalナビゲーションの精度を向上させるために、ビジュアル・オドメトリー(VO)を用い、教師なしで訓練された新しいアクション統合モジュール(AIM)を提案する。
実験により,提案システムは良好な結果が得られ,Gibsonデータセット上で部分的に教師付き学習アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2022-10-02T03:12:03Z) - Real-time Outdoor Localization Using Radio Maps: A Deep Learning
Approach [59.17191114000146]
LocUNet: ローカライゼーションタスクのための畳み込み、エンドツーエンドのトレーニングニューラルネットワーク(NN)。
我々は,LocUNetがユーザを最先端の精度でローカライズし,無線マップ推定における不正確性が高いことを示す。
論文 参考訳(メタデータ) (2021-06-23T17:27:04Z) - Real-time Localization Using Radio Maps [59.17191114000146]
パスロスに基づく簡易かつ効果的なローカライゼーション法を提案する。
提案手法では, 受信した信号強度を, 既知の位置を持つ基地局の集合から報告する。
論文 参考訳(メタデータ) (2020-06-09T16:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。