論文の概要: IROS: A Dual-Process Architecture for Real-Time VLM-Based Indoor Navigation
- arxiv url: http://arxiv.org/abs/2601.21506v1
- Date: Thu, 29 Jan 2026 10:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.009407
- Title: IROS: A Dual-Process Architecture for Real-Time VLM-Based Indoor Navigation
- Title(参考訳): IROS:リアルタイムVLMを用いた屋内ナビゲーションのためのデュアルプロシージャアーキテクチャ
- Authors: Joonhee Lee, Hyunseung Shin, Jeonggil Ko,
- Abstract要約: IROSは、VLMレベルのコンテキスト推論と、低コストのオンデバイスハードウェア上での知覚モジュールの効率性を組み合わせたリアルタイムナビゲーションフレームワークである。
IROSは意思決定の精度を改善し、連続的なVLMベースのナビゲーションに比べてレイテンシを66%削減する。
- 参考スコア(独自算出の注目度): 1.794583385365075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Indoor mobile robot navigation requires fast responsiveness and robust semantic understanding, yet existing methods struggle to provide both. Classical geometric approaches such as SLAM offer reliable localization but depend on detailed maps and cannot interpret human-targeted cues (e.g., signs, room numbers) essential for indoor reasoning. Vision-Language-Action (VLA) models introduce semantic grounding but remain strictly reactive, basing decisions only on visible frames and failing to anticipate unseen intersections or reason about distant textual cues. Vision-Language Models (VLMs) provide richer contextual inference but suffer from high computational latency, making them unsuitable for real-time operation on embedded platforms. In this work, we present IROS, a real-time navigation framework that combines VLM-level contextual reasoning with the efficiency of lightweight perceptual modules on low-cost, on-device hardware. Inspired by Dual Process Theory, IROS separates fast reflexive decisions (System One) from slow deliberative reasoning (System Two), invoking the VLM only when necessary. Furthermore, by augmenting compact VLMs with spatial and textual cues, IROS delivers robust, human-like navigation with minimal latency. Across five real-world buildings, IROS improves decision accuracy and reduces latency by 66% compared to continuous VLM-based navigation.
- Abstract(参考訳): 屋内での移動ロボットナビゲーションには、迅速な応答性と堅牢なセマンティック理解が必要であるが、既存の方法は両方を提供するのに苦労している。
SLAMのような古典幾何学的アプローチは、信頼性のあるローカライゼーションを提供するが、詳細な地図に依存しており、屋内の推論に不可欠な人的対象のキュー(例えば記号、部屋番号)を解釈することはできない。
VLA(Vision-Language-Action)モデルはセマンティックグラウンドを導入しているが、厳密な反応を持ち、可視フレームのみに基づいて決定を下す。
VLM(Vision-Language Models)は、よりリッチなコンテキスト推論を提供するが、高い計算遅延に悩まされるため、組み込みプラットフォームでのリアルタイム操作には適さない。
本研究では,VLMレベルの文脈推論と,低コスト・オンデバイスハードウェア上での軽量知覚モジュールの効率性を組み合わせたリアルタイムナビゲーションフレームワークIROSを提案する。
デュアルプロセス理論にインスパイアされたIROSは、迅速な反射的決定(System One)と遅い熟考的推論(System Two)を分離し、必要な時にのみVLMを呼び出す。
さらに、空間的およびテキスト的なキューでコンパクトなVLMを拡張することで、IROSは、最小のレイテンシで、堅牢で人間的なナビゲーションを提供する。
5つの現実世界の建物でIROSは意思決定の精度を改善し、連続的なVLMベースのナビゲーションに比べてレイテンシを66%削減する。
関連論文リスト
- AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。
本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文 参考訳(メタデータ) (2026-03-18T12:43:47Z) - SFCo-Nav: Efficient Zero-Shot Visual Language Navigation via Collaboration of Slow LLM and Fast Attributed Graph Alignment [7.6686624731596895]
本稿では,効率的なゼロショットビジュアル言語ナビゲーションフレームワークであるSFCo-Navを紹介する。
2) リアルタイムオブジェクトグラフの構築とサブゴール実行のための高速なリアクティブナビゲータ,3) 非同期のスローファーストブリッジは高度な構造化,属性付き,認識されたグラフを整列して,ナビゲーションの信頼性を推定する。
従来のゼロショットVLNの成功率と一致または超える一方で、軌道当たりのトークン総消費量を50%以上削減し、3.5以上を走らせる。
論文 参考訳(メタデータ) (2026-03-02T05:42:12Z) - AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild [62.47761809929869]
視覚言語ナビゲーション(VLN)は、視覚的観察とともに言語指示を解釈することで、知的エージェントが環境をナビゲートする必要がある。
無人航空機(UAV)の現在のVLN研究は、所定のルートに沿ってUAVを誘導するための詳細な指示に依存している。
本稿では,自律型UAVナビゲーションのためのエンド・ツー・エンドのビジョン・ランゲージ・アクションモデルであるAutoFlyを提案する。
論文 参考訳(メタデータ) (2026-02-10T11:08:07Z) - Run, Ruminate, and Regulate: A Dual-process Thinking System for Vision-and-Language Navigation [52.11339614452127]
VLN(Vision-and-Language Navigation)は、エージェントが人間の指示に従って複雑な3D環境を動的に探索する必要がある。
近年の研究では、一般的な知識と一般的な推論能力から、大きな言語モデル(LLM)をVLNに活用する可能性を強調している。
本稿では、LLMの一般化機能とVLN固有の専門知識をゼロショットで統合する、R3と呼ばれる新しいデュアルプロセス思考フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-18T04:32:00Z) - Fast-SmartWay: Panoramic-Free End-to-End Zero-Shot Vision-and-Language Navigation [16.632191523127865]
Fast-SmartWayは、パノラマビューやウェイポイント予測不要なエンドツーエンドのゼロショットVLN-CEフレームワークである。
提案手法では,3つの正面RGB-D画像と自然言語命令を組み合わせるだけで,MLLMが直接行動を予測することができる。
論文 参考訳(メタデータ) (2025-11-02T13:21:54Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - Edge-Based Multimodal Sensor Data Fusion with Vision Language Models (VLMs) for Real-time Autonomous Vehicle Accident Avoidance [12.513296074529727]
本稿では,自律走行のためのリアルタイムエッジベース自律走行軌道プランナ(REACT)を提案する。
REACTは、微調整軽量ビジョンランゲージモデル(VLM)に基づくADのためのV2X統合軌道最適化フレームワークである。
DeepAccidentベンチマークで評価されたREACTは、最先端の性能、77%の衝突率の低減、48.2%のビデオパノプティクス品質(VPQ)、およびJetson AGX Orinでの0.57秒の推論遅延を実現している。
論文 参考訳(メタデータ) (2025-08-01T20:16:04Z) - iVISPAR -- An Interactive Visual-Spatial Reasoning Benchmark for VLMs [4.34964016971127]
iVISPARは、視覚言語モデル(VLM)がエージェントとして働く空間的推論能力を評価するために設計されたインタラクティブなベンチマークである。
このベンチマークは、ビジュアル3D、2D、テキストベースの入力モダリティをサポートし、VLMの計画と推論スキルの包括的な評価を可能にする。
その結果、VLMは3次元やテキストベースの設定に比べて2次元のタスクでは優れていたが、複雑な空間構成に苦慮し、常に人間のパフォーマンスに欠けていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-05T14:29:01Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。